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TAULES ESTADÍSTIQUES 163 


Presentació 


Lobjectiu principal d'aquest material és proporcionar als estudiants una eina, estruc- 
turada en format de llibre, que els permeti consultar clarament i ràpidament com es 
pot aplicar de manera pràctica la teoria relacionada amb qualsevol dels continguts que 
formen part d'un curs bàsic destadística de nivell universitari. 

En aquest material es defuig tant com és possible un llenguatge massa tècnic i 
teòric, el qual és difícil d'entendre pels estudiants, i s'usa un llenguatge més planer i 
en què es fa èmfasi especialment en l'aplicació de les diverses tècniques estadístiques. 
S'explica quan i com es poden aplicar aquestes tècniques pas a pas, de manera que es 
guia l'alumnat en el procediment que cal seguir en cada situació. El material està farcit 
d'exemples on també s'ha desenvolupat la solució seguint els passos marcats a la part 
teòrica. S'utilitza aquesta estructura per afavorir l'aprenentatge: sassisteix l'estudiant en 
la resolució dels exercicis que es proposen en l'assignatura, ja que es marca el camí que 
ha de seguir per aplicar cada tècnica. 

En aquest material també sexplica quines són les funcions i les eines estadístiques 
d'Excel que es poden fer servir per automatitzar els càlculs que es requereixen per apli- 


car les diverses tècniques estadístiques. 


1. Estadística descriptiva 


1.1 Concepte d'estadística. Contingut de l'estadística 


Definició. Lestadística és la ciència, el mètode, les tècniques, l'operació d'anàlisi mate- 
màtica que permeten estudiar numèricament amb el màxim de precisió els fenòmens 
col.lectius incompletament coneguts. 

El contingut de l'estadística es pot dividir en dos grans grups: 

4. o Estadística descriptiva 


4 o Estadística inferencial (o inductiva) 


Definició. Lestadística descriptiva estudia la manera dordenar i analitzar totes les 
dades d'una població, amb l'objectiu d'obtenir conclusions sobre aquesta població. 

Exemples. La direcció d'un centre escolar vol fer un estudi sobre els resultats aca- 
dèmics d'un curs determinat o es vol estudiat els resultats dels diferents equips de fut- 
bol de primera divisió durant els 10 últims anys. Aquests són problemes d'estadística 


descriptiva, ja que disposem de les dades de tots els elements que volem estudiar. 


Definició. L'estadística inferencial té com a finalitat obtenir conclusions respecte 
d'una població, mitjançant l'anàlisi d'una mostra de la població. 

Exemples. Es vol estudiar l'alçada de tots els catalans i només disposem de l'alçada 
de 1.000 persones o es vol fer un estudi sobre la durada de les bombetes d'una determi- 
nada marca i només disposem de la durada de 100 bombetes d'aquesta marca. Aquests 
són problemes d'estadística inferencial, ja que no disposem de les dades de tots els ele- 


ments que volem estudiar, sinó d'una mostra. 
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1.2 Concepte de població, mostra, individu i variable estadística 


Definició. S'anomena població el conjunt sobre el qual es vol portar a terme l'estudi 
estadístic. 

Definició. S'anomena mostra qualsevol subconjunt de la població. 

Definició. S'anomena individu qualsevol element del conjunt de la població. 

Definició. S'anomena variable estadística la característica que es vol estudiar d'una 
població. 

Exemple. Agafant l'exemple anterior sobre lestudi de les bombetes, la població 
la formen totes les bombetes d'aquella marca: cada bombeta és un individu, les 100 
bombetes de les quals sabem la durada formen una mostra de la població i la variable 
estadística que estem estudiant és la durada de les bombetes. 

Observació. Depenent del que vulguem estudiar, un mateix conjunt pot ser una 
mostra o una població. Per exemple, si només tenim les notes dels alumnes que han 
seguit certs estudis a la universitat URV i volem treure conclusions sobre aquest grup 
en concret, aquest grup d'alumnes de la URV és la població: en canvi, si volem treure 
conclusions sobre els estudiants universitaris de Catalunya, el grup d'alumnes de la 


URV és una mostra i tots els estudiants universitaris de Catalunya són la població. 


1.3 Classificació de les variables estadístiques 


Les variables estadístiques les classificarem segons el tipus de valors que poden prendre. 
Una primera divisió és: 
4 — Variables estadístiques qualitatives (o nominals) 


4 o Variables estadístiques quantitatives (o numèriques) 


Definició. Les variables estadístiques qualitatives són aquelles que no prenen va- 
lors numèrics. 


Exemples. El color dels ulls, el sexe, el tipus de distracció preferit. 


Definició. Les variables estadístiques quantitatives són aquelles que prenen va- 
lors numèrics. Dintre d'aquestes últimes encara podem fer una subdivisió: 
4 — Variables estadístiques quantitatives discretes 


4 — Variables estadístiques quantitatives contínues 
Definició. Una variable estadística és quantitativa discreta quan entre dos valors 
qualssevol que pot prendre la variable només hi ha un nombre finit de possibles valors 


de la variable. També es pot dir que una variable estadística és quantitativa discreta 
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quan el nombre de possibles valors que pot prendre la variable és una quantitat nume- 
rable (finita o infinita), és a dir que els possibles valors es poden numerar i que després 
d'un possible valor sempre sé quin és el segúent. 

Exemples. El nombre de germans, el nombre de cotxes que passen en un dia per un 


cert punt, el nombre de trucades que es reben cada hora en una ciutat. 


Definició. Una variable estadística és quantitativa contínua quan entre dos valors 
qualssevol que pot prendre la variable hi pot haver un nombre infinit de possibles valors 
de la variable. Aquesta definició és equivalent a dir que, si agafem dos valors que pot 
prendre la variable, tan propers com vulguem, sempre és possible trobar un altre valor 
de la variable que estigui entre els dos valors anteriors. Els possibles valors d'una vari- 
able quantitativa contínua són infinits i no numerables i després d'un possible valor no 
es pot concretar quin és el segient. 

Exemples. L'alçada de les persones, el pes de les taronges, el temps que es tarda a 
fer un examen. S'ha d'observar, per exemple en el primer cas, que, si agafem les alçades 
de dues persones, sempre és possible trobar-ne una altra que tingui una alçada entre 
les dues anteriors. En aquest sentit, cal pensar que l'alçada exacta d'una persona és una 
quantitat amb infinites xifres decimals però que, per problemes amb la precisió dels 
aparells de mesura, la majoria de vegades només donem l'alçada en centímetres, és a dir, 
generalment discretitzem variables de naturalesa contínua. 

Observació. Cal remarcar que una variable estadística quantitativa discreta no és 
només aquella que pot prendre un nombre finit de resultats, sinó que de vegades podrà 
prendre un nombre infinit de possibles resultats. Per exemple, en el cas del nombre de 
cotxes que passen per cert punt en un dia, la variable és discreta, però els possibles va- 


lors que pot prendre són infinits. 


1.4 Distribució de frequències. Representacions gràfiques 
1.4.1 Taula de frequències 


Si observem una variable estadística sobre un conjunt d'individus, obtindrem una sèrie 
de dades (que poden estar repetides o no). Aquestes dades, si són quantitatives, les 
podem ordenat. Si són qualitatives, lordenació és arbitrària. Els valors de les dades or- 


denades els notarem com a ds pr OE, ES el valor de la dada més petita, x, el valor 


V 
de la segona i així successivament. 
Definició. La freqiència absoluta d'un valor és el nombre de vegades que apareix 


aquest valor a la sèrie. La freqiència absoluta del valor x, la notarem amb 1. 


13 


Josep Maria Mateo Sanz 


Definició. La frequència relativa d'un valor x, és el quocient entre la frequència 
absoluta del valor i el nombre total de dades de la sèrie. Notarem amb N el nombre 


total de dades i amb f, la freqiència relativa del valor x,. Així obtenim: /,- ri 8 


Definició. La freqiència absoluta acumulada d'un valor x, és la suma de totes les 
1 

frequències absolutes dels valors de la sèrie des del principi fins al valor x, Notarem 
amb N, la frequència absoluta acumulada del valor Xoc Així obtenim: Non, En, te 
4 n, També es pot obtenir N, fent N, — N, , £ n. 

Definició. La frequència relativa acumulada d'un valor x, és la suma de totes les 
frequències relatives dels valors de la sèrie des del principi fins al valor x, Notarem amb 
is la frequència relativa acumulada del valor x, Així obtenim: Fs al 4 h deia de h Tam- 


bé es pot obtenir F, fent F, — F, , Y f,o bé fent F,— x R 


Propietats de les frequències 

4 — La suma de les frequiències absolutes és igual al nombre total de dades de la 
sèrie. 

4 La frequiència relativa d'un valor sempre estarà entre Oi 1. 

4 — La suma de totes les frequències relatives és igual a 1. 

4. Si multipliquem la frequència relativa d'un valor per 100 obtindrem el tant per 
cent de vegades que es repeteix el valor dins de la sèrie. 


Donada una sèrie de dades podem crear una taula de frequències on apareguin els 
valors de les dades i tots els tipus de freqiències esmentades. 

Exemple. S'ha llançat un dau 20 vegades i s ha obtingut el resultat segúent: 2, 3, 6, 
6, 2, 4, 4, 4, 2, 5, 2, 4, 2, 4, 2, 5, 1, 6, 2 i 2. Fem la taula de frequències: 


Valor (x) 1 Freg. abs. (n) Frege rel (P) Freg. abs. ac. (N,) Freg. rel. ac. (F) 
1 1 0.05 1 0.05 
2 8 0.4 9 0.45 
3 1 0.05 10 0.5 
4 5 0.25 15 0.75 
5 2 0.1 17 0.85 
6 3 0.15 20 1 


1.4.2 Representació gràfica 


Diagrama de barres. L'usarem quan els valors de la variable estadística siguin donats de 
manera individual. Normalment representarem les freqiències absolutes, les frequèn- 
cies relatives o el tant per cent. Per fer-ho hem de dibuixar dos eixos. A l'eix horitzontal 


hem de posar-hi els valors de la variable de manera ordenada. A l'eix vertical posarem 
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una escala adient segons el que vulguem representar. El gràfic es construeix aixecant 
sobre cada valor de la variable un segment vertical de llargada igual a la frequència que 
vulguem representar, 

Exemple. Fem un diagrama de barres per representar les freqiències absolutes 
amb les dades de l'exemple anterior: 


I 2 3 4 5 6 


Histograma. Lusarem quan els valors de la variable estadística estiguin donats en 
forma d'interval. En aquest cas suposarem que els diferents intervals tenen la mateixa 
amplada. L'única diferència amb el diagrama de barres és que a l'eix horitzontal hem de 
posar-hi els valors dels extrems dels intervals de manera ordenada i el gràfic es constru- 
eix aixecant sobre cada interval un rectangle vertical d'altura igual a la frequència que 
vulguem representar, 

Exemple. Fem un histograma per representar les frequències relatives de les dades 
segients agrupades en intervals corresponents als pesos (en ig) de 16 alumnes d'una 
classe de secundària. 
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Valor (x) 1. Freq. abs. (n) Freg. rel. (f) Freg. abs. ac. (N) Freg. rel. ac. (F) 
45-50 1 0.0625 1 0.0625 
50-55 4 0.25 5 0.3125 
55-60 5 0.3125 10 0.625 
60-65 4 0.25 14 0.875 
65-70 2 0.125 16 1 
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Observació. Si els intervals no tenen la mateixa amplada, l'altura de cada rectan- 
gle es calcula dividint la frequència de l'interval que vulguem representar entre la seva 


amplada. 


1.5 Agrupació de dades en intervals 


De vegades, quan el nombre de valors diferents que hi ha en una sèrie de dades estadís- 
tiques és gran, convé agrupat les dades en intervals. En aquest cas, només estudiarem el 
cas en què els intervals tinguin la mateixa amplada. Per agrupar les dades distingirem 
dos casos segons que la variable estadística que estem estudiant sigui quantitativa con- 
tínua o quantitativa discreta. De vegades hi haurà variables discretes que tractarem com 
a contínues si el nombre de valors que comprèn és molt gran. 

Quan agrupem les dades en intervals, apareix un nou concepte que és la marca de 
classe. 

Definició. La marca de classe d'un interval és el nombre que representa l'interval. 
Aquest nombre pot ser qualsevol que estigui dins de l'interval, però normalment s'agafa 
el punt mitjà de l'interval (que és el que farem a partit d'ara). El punt mitjà d'un interval 
el podem obtenir sumant els extrems de l'interval i dividint entre 2. La marca de classe 
la notarem amb x.. 


1.5.1 Variable quantitativa contínua 


El primer que cal fer és determinar el nombre d'intervals que volem fer amb les dades 
de la sèrie estadística. Aleshores, l'amplada dels intervals la podem calcular segons la 
fórmula segúent: 


Valor màxim - Valor mínim 


Amplada — 


Nombre d'intervals 


Els intervals els obtindrem sumant successivament l'amplada a partir del valor mí- 
nim. D'aquesta manera, l'extrem inferior d'un interval coincidirà amb l'extrem superior 


de l'interval anterior. 


Observacions 
4, A l'hora d'assignar les frequències absolutes a cada interval, podem tenir dub- 
tes amb les dades que coincideixen amb els extrems dels intervals, ja que no 


sabem en quin interval posar-les. Per aquest motiu cal indicar en quin interval 
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inclourem aquestes dades dubtoses. Això ho farem mitjançant els claudàtors 
L.), per indicar que l'extrem és inclòs a l'interval, i els parèntesis (,), per indicar 
que lextrem no és inclòs a l'interval. Cal que tots els extrems superiors esti- 
guin inclosos (i els inferiors exclosos) o que tots els extrems inferiors estiguin 
inclosos (i els superiors exclosos). El valor més petit i el més gran han d'estar 
sempre inclosos. 


4 Si l'amplada no dóna un nombre exacte, podem arrodonit-la per excés a una 


quantitat adient i començar a fer intervals abans del valor mínim i acabar des- 
prés del valor màxim. 


Exemple. Les dades segients corresponen als pesos (en Eg) de 16 alumnes d'una 
classe de secundària: 55, 55.5, 70, 60, 54.5, 54, 63, 54, 70, 64, 56, 52, 62.5, 57, 45 i 55. 
Amb aquestes dades farem 95 intervals de la mateixa amplada i inclourem els extrems 


superiors en els intervals. 


Valor màxim - Valor mínim — 70-45 


Amplada — — sl 
Nombre d intervals B) 
Pesos Marca de classe (x) Freg. abs. (n) 
(45,50) 475 1 
(50,55) 525 6 
(55,60) 575 4 
(60,65) 62.5 3 
(65,70) 67.5 2 


1.5.2 Variable quantitativa discreta 
Lamplada dels intervals la podem calcular segons la fórmula segúent: 


Valor màxim - Valor mínim YH 1 


Amplada — 
Nombre d'intervals 

En aquest cas, l'amplada indicarà el nombre de valors que s'inclouran a cada in- 
terval. El primer interval començarà pel valor més petit i acabarà al valor obtingut de 
sumar el valor mínim amb l'amplada menys 1. El segúient interval començarà al valor 
segient del valor amb què ha acabat l'interval anterior i acabarà al valor obtingut de 


sumar l'extrem inferior amb l'amplada menys 1. I així successivament. 
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Observacions 
4 — En aquest cas, no hi pot haver dubtes en l'assignació de frequències absolutes 
ja que l'extrem inferior d'un interval no coincideix amb lextrem superior de 


l'interval anterior. 


4 Si l'amplada no dóna un nombre exacte, podem arrodonit-la per excés a una 
quantitat adient i començar a fer intervals abans del valor mínim i acabar des- 
prés del valor màxim. 


Exemple. Les dades segients corresponen al mes en què van néixer 20 alumnes 
d'una classe d'universitat: 8, 4, 8, 5, 2, 11, 2, 3, 9, 10, 12, 11,5, 5, 12, 4, 6, 1, 7 i 2. Amb 
aquestes dades, farem 4 intervals de la mateixa amplada. 


Valor màxim - Valor mínim Y1.— 12-11 3 


Amplada — - - 
Nombre d'intervals 4 


Mesos Marca de classe (x) Freg. abs. (n) 
1-3 2 5 
4-6 6 
7-9 8 4 
10-12 11 5 


1.6 Mesures de posició 


En els segients subapartats estudiarem les mesures de posició. La majoria d'aquestes 
mesures només té sentit aplicar-les sobre variables quantitatives. En els tres primers 
seran mesures de posició central, i el quart subapartat es dedicarà a mesures de posició 
no central. Les mesures de posició central tenen per objectiu resumir una sèrie de da- 
des estadístiques en un sol nombre. Les mesures de posició no central són valors que 
divideixen la sèrie en parts iguals. Totes les mesures de posició agafen valors que estan 
entre el valor mínim i el valot màxim. Les mesures de posició central que veurem són: 


la mitjana, la mediana i la moda. 


1.6.1 Mitjana aritmètica 


Definició. La mitjana aritmètica d'una sèrie estadística és la suma de totes les dades de 
la sèrie dividida pel nombre total de dades. Simplificant, l'anomenarem mitjana i la no- 
tarem amb x (o pu). La fórmula per trobar la mitjana és: 


18 


ESTADÍSTICA PRÀCTICA PAS A PAS 


È 
Xi Hi 
pe XINPT Xana TT Xa 2 
N N 


Observació. Si les dades estan donades en intervals, hem de treballar amb les mar- 
ques de classe. 


Exemple. Agafem les dades de l'exemple sobre el resultat del llançament d'un dau: 


Valor (x) J.Freg. abs. (n) 
1 1 


Qu BS LL NO 
RD RQ uU Em o 


La mitjana serà: 


ea PDI DE rada STS Dra... 
20 


3.4 


Observació. Un altre concepte relacionat és el de mitjana ponderada, que es pro- 
dueix quan a cada valor de la sèrie li donem una importància diferent. Aquesta impor- 


tància es mesura segons una ponderació de cada valor, La fórmula per trobar la mitjana 
ponderada és: 


La 
Yx Vi 
x HE XIMVIT Xa a TT Xa Ma — 171 
— A 


mt mY..t VVr y 


il 


Exemple. En una assignatura s ha de presentar un treball que es valora en 1, s'han 
de lliurar uns problemes que es valoren en 2 i s ha de fer un examen que es valora en 3. 
La nota del treball és 5, la dels problemes és 8 i la de lexamen és 7. Per trobar la nota fi- 


nal hem de fer la mitjana ponderada segons la importància que s ha donat a cada part. 


Valor (x) 1. Ponderació (mv) 
5 1 
8 2 
7 3 
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La mitjana ponderada serà: 


S1482473 4, 
saga 


E— 


1.6.2 Mediana 


Definició. La mediana és la dada que ocupa la posició del mig a la sèrie una vegada s'han 
ordenat les dades, de més petita a més gran, tenint en compte les repeticions. 


Observacions 


4 Si hi ha un nombre senar de dades, hi haurà una única dada que estigui al mig. 


Aquesta dada és la que ocupa la posició 


4. Si hi ha un nombre parell de dades, n hi haurà dues que seran al mig, en aquest 
cas, la mediana la trobarem fent la mitjana d'aquestes dues dades. Les dues 
dades ocupen la posició — i i 1, 


4, — També es pot calcular la mediana quan les dades estan agrupades en intervals. 


Exemple. Agafem les dades de l'exemple sobre el resultat del llançament d'un dau: 


Valor (x) 1. Freg. abs. (n) Freg. abs. ac. (N) 
1 1 1 
2 8 9 
3 1 10 
4 5 15 
5 2 17 
6 3 20 


La mediana serà la mitjana dels valors que són a les posicions 10 i 11. Aquests 
valors són el 3 i el 45 per tant, la mediana és Me — 3.5. 


1.6.3 Moda 


Definició. La moda és el valor de la dada que es repeteix més vegades a la sèrie. Aquesta 
mesura es pot aplicar tant a variables quantitatives com qualitatives. 
Observacions 
4 — Si les dades estan agrupades en intervals, parlarem de l'interval modal, que serà 
l'interval on hi ha més dades. 
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4 Si hi ha empat en el nombre de repeticions entre dos o més valors, hi haurà 
més d'una moda, 


Exemple. Agafem les dades de l'exemple sobre el resultat del llançament d'un dau: 


Valor (x) 1. Freg. abs. (n) 
1 1 


Q U BE Lo N 
RD NO uU EH Do 


La moda és el 2, ja que es repeteix 8 vegades. Mo — 2. 


1.6.4 Mesures de posició no central: percentils 


Com s'ha comentat abans, les mesures de posició no central són les que divideixen la 
sèrie de dades en parts iguals. Entre aquestes trobem: 
4. o Els quartils, que són els tres valors que divideixen la sèrie en quatre parts 
iguals (a cada part hi haurà el 2590 de la sèrie). 


4 — Els decils, que són els nou valors que divideixen la sèrie en 10 parts iguals (a 
cada part hi haurà el 1096 de la sèrie). 


4 — Els centils o percentils, que són els 99 valors que divideixen la sèrie en 100 
parts iguals (a cada part hi haurà l'190 de la sèrie). 


De fet, tot es pot reduir a percentils, ja que el primer quartil es correspon amb el 
percentil 25 o el quart decil es correspon amb el percentil 40 i així es pot fer amb els 
altres quartils i decils. La mediana es correspon amb el percentil 50. Per això, l'estudi 
més complet el farem sobre els percentils. 


PROCEDIMENT I (PER A DADES NO AGRUPADES EN INTERVALS) 


El percentil 1 (P,) és el valor que supera l'196 de les dades d'una sèrie i és superat pel 
9996 restant de les dades d'aquella sèrie. El percentil 2 (P,) és el valor que supera el 206 
de les dades d'una sèrie i és superat pel 9890 restant de les dades d'aquella sèrie. En ge- 
neral, el percentil i (P.) és el valor que supera l'/96 de les dades d'una sèrie i és superat pel 
(100 — i)96 restant de les dades d'aquella sèrie. Per tant, si el percentil i ocupa la posició 


x cal que: 
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x-l 


100 
N 


ja queles x — 1 dades que són superades per la dada que ocupa la posició x han de repre- 
sentar un 196 de les dades de la sèrie sense comptar la mateixa dada que ocupa la posició 
x (per això es divideix entre N — 1). 


De l'expressió anterior, obtenim que la posició que ocupa el percentil i serà: 


PN -I) 
100 


-1 


Observació. Si la posició marcada per algun percentil no coincideix exactament 
amb la posició d'algun valor de la sèrie de dades, es pot realitzar una interpolació per 
determinar exactament el valor del percentil. 


Exemple. Agafem les dades de l'exemple sobre el resultat del llançament d'un dau: 


Valor (x) J.Freg. abs. (n) 
1 1 


Qu BE Lo N 
LD QR uU Em o 


Si ens demanen el quartil 1, podem buscar el percentil 25, P.,, ja que és el mateix. 
El P,, ocupa la posició x — TE 41-5.75 (entre la posició 5 i la posició 6). Amb la sèrie 
de dades ordenada veiem que la posició 5 correspon a un 2 i la posició 6 també corres- 
pon a un 2. Per tant, el percentil 25 serà igual a 2 (P, — 2). 

Si ens demanen el SG 45, P,,, primer hem de mirat quina posició ocupa. El 
P,, ocupa la posició X— ET all 19.55 (entre la posició 9 i la posició 10). Amb la sèrie 
de dades ordenada veiem que la posició 9 correspon a un 2 i la posició 10 correspon a 
un 3. Interpolant, agafem la diferència entre la posició x i l'enter més petit que x (9.55 


— 9 S 0.55) i la multipliquem per la diferència entre els dos valors marcats per les dues 


posicions enteres al voltant de la posició x (3 — 2 — 1). Al resultat de la multiplicació 
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(0.55. 1 — 0.55) se li ha d'afegir el valor corresponent a la posició entera més petita que 


x per tal de trobar el Ppa És a dir, P, 24055 - 255. 


PROCEDIMENT 2 (PER A DADES AGRUPADES EN INTERVALS) 


Si les dades estan agrupades en intervals, el percentil i (P) el trobarem mitjançant la 


fórmula: 
I(N —ND) GS: 
popa 100 


LB) 


on L , és l'extrem inferior de l'interval on és la dada EN-D 41,n, és la frequència 
- 100 
absoluta d'aquest interval, a, és l'amplada d'aquest interval i No és la frequiència abso- 
luta acumulada de l'interval anterior, 
Exemple. Les dades segients corresponen a l'exemple dels pesos d'una classe de 
secundària. Busquem el Pes 


Valor (x) 1. Freg. abs. (n) Freg. abs. ac. (N) 
45-50 1 1 
50-55 4 5 
55-60 5 10 
60-65 4 14 
65-70 2 16 
Ep eds els c6igis 


1.7 Mesures de dispersió 


Les mesures de dispersió ens indiquen si les dades d'una sèrie estadística estan més o 
menys juntes. Aquestes mesures ens ajuden a especificar millor com és la sèrie de da- 
des, ja que completen la informació facilitada per la mitjana o qualsevol altra mesura de 
posició central. Com més gran sigui el valor d'aquestes mesures, més dispersió hi haurà 


entre les dades. lotes aquestes mesures sempre prenen valors positius. 
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Exemple. Si calculem la nota mitjana de dos alumnes que han fet dos exàmens 
cadascú, en els quals el primer alumne ha tret dos 5 i el segon alumne ha tret un Oi un 
10, veiem que la nota mitjana és 5 en els dos casos. Però la dispersió de les notes és molt 


més gran en el segon alumne, 


1.7.1 Recorregut 


Definició. El recorregut és la diferència entre el valor màxim i el valor mínim d'una sèrie 


estadística. 


1.7.2 Desviació mitjana 


Definició. La desviació mitjana és la mitjana dels valors absoluts de les diferències entre 


els valors de la sèrie i la mitjana. La fórmula per trobar-la és: 


Li ds 
Slx-aln 


Observació. Si les dades estan agrupades en intervals, agafarem com a 3 la marca 


de classe. 


1.7.3 Variància 


Definició. La variància és la mitjana dels quadrats de les diferències entre els valors de 


la sèrie i la mitjana. La fórmula per trobar-la és: 


L3 


t 
EV, 2oe 
Sac xynm Ya ni 
ge El die 


2 
—iX 


N N 


Observacions 

Si les dades estan agrupades en intervals, agafarem com a x, la marca de classe. 

Si el conjunt de dades sobre el qual es treballa correspon a una mostra de la po- 
blació que es vol estudiar, la variància rep el nom de variància mostral i es nota i calcula 


segons la fórmula segúent: 
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1.7.4 Desviació típica o estàndard 


Definició. La desviació típica o estàndard és l'arrel quadrada de la variància. D'aquesta 
manera sobté una mesura en les mateixes unitats que les dades. La notarem amb 6. 

Observació. Si el conjunt de dades sobre el qual es treballa correspon a una mostra 
de la població que es vol estudiar, la desviació estàndard rep el nom de desviació es- 
tàndard mostral i es nota amb la lletra s i es calcula fent l'arrel quadrada de la variància 
mostral. 


1.7.5 Coeficient de variació 


Definició. El coeficient de variació és el quocient entre la desviació típica i la mitjana. 
A diferència de les anteriors, aquesta és una mesura de dispersió relativa: les anteriors 


eren mesures de dispersió absolutes. La fórmula per trobar-lo és: 


V- 


x IQ 


Exemple. Calculem totes les mesures de dispersió de les dades de l'exemple sobre 
el resultat del llançament d'un dau: 


Valor (x) l.Freg. abs. (n) 
1 1 


Qu BF LL N 
LD Q uU EH o 


Recorregut —6— 1-5 


da 12817 3017451527630 68 
20 20 


Sa 
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p — 1-3.411412-3.487...116-3.4/3 28 


S 1.4 
i 20 20 


3.4 J:14(2-3.4 4 87...4(6-3.4 )- 

pe (-34)14(2-34/87...1(6-34/:3. 488. , 
20 20 

G-— 1.56 

ra (1-34 J-14(2-34 7 87...1(6-34/:3.— 48.8 En 
19 19 

ss 1.6 

Va i 046 


Exemple. Calculem totes les mesures de dispersió de les dades de l'exemple corres- 


ponent als pesos d'una classe de secundària. 


Pesos Marca de classe (x) Freg. abs. (n) 
45-50 47.5 1 
50-55 525 4 
55-60 575 5 
60-65 62.5 4 
65-70 67.5 2 


Recorregut — 7/0 — 45 — 25 


Q 81514525:41575:54625.416752 930 
16 16 


S 58.125 


OO 147.5-58.125)14152.5- 38.125)47...4167.5- 58.12512.— 725 


D, 4.53 
16 16 


pe (475-58.125 J:14(52.5- 58.125 J44...4(67.5- 58.125 ):2.— 493.75 
16 16 


S 30.86 
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QS 


ge. (47.5-58.125 ):14(52.5-58.125 )-44...1(67.5- 58.125 /:2.— 493.75 
I5 


532,92 


s— 5.74 


Mia ie) 
36.125 


5 0,093857 


1.8 Funcions d'Excel per calcular mesures estadístiques 


Farem unes consideracions generals sobre quines funcions té Excel que facin operaci- 
ons estadístiques i com s han d'introduir aquestes funcions. 

Abans d'usar una funció, generalment haurem d'haver posat les dades sobre les 
quals aplicarem la funció, per exemple, abans d'usar la funció que calcula la mitjana 
d'una sèrie de dades haurem d'haver posat les dades a Excel. 

Per introduir una funció a Excel cal que ens trobem en una casella en blanc i anem 
a" Insertar —Y Función, Veurem que les funcions es troben agrupades en categories. En 
aquesta assignatura usarem bàsicament les funcions de la categoria "Estadísticas'. 

Cada funció necessita uns arguments a partit dels quals donarà el resultat, per 
exemple, a la funció que calcula la mitjana d'una sèrie de dades cal introduir-hi com a 
argument sobre quines dades cal que calculi la mitjana. 

Una vegada s'han introduit els arguments d'una funció, el programa retorna el 
resultat del càlcul demanat. 


MESURES ESTADÍSTI QUES FUNCIONS D'EXCEL 
Mitjana, x PROMEDIO 
Mediana MEDIANA 
Moda MODA 
Desviació mitjana, D, DESVPROM 
Variància poblacional, 07 VARP 
Desviació estàndard poblacional, 6 DESVES TP 
Variància mostral, s' VAR 
Desviació estàndard mostral, s DESVEST 
Percentil, P PERCENTIL 
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2. Variables aleatòries 


2.1 Experiments aleatoris. Espai mostral. Successos 


Definició. Es diu que un experiment és aleatori, estocàstic o estadístic si, quan es repe- 
teix indefinidament en les mateixes condicions, no és possible predir el resultat, encara 
que coneguem les condicions inicials. En un experiment aleatori no coneixem el resul- 
tat fins que s'ha realitzat la prova. 

Exemples. Són experiments aleatoris: 


4 —Lextracció d'una carta de la baralla. 
4 . El llançament d'un dau. 

4 — Lextracció d'una bola de la loteria. 
4 — El llançament d'una moneda. 


No són experiments aleatoris: 


4 — El resultat d'una reacció química. 


4 — La velocitat d'arribada d'un cos a terra quan el deixem caure des d'una torre. 


Definició. El conjunt de tots els resultats possibles que es poden obtenir amb un 
experiment aleatori sanomena espai mostral. El notarem amb O). 


Exemples. Considerarem ara diversos experiments i definirem els corresponents 
espais mostrals: 


4 o Llançar una moneda i observar el costat que apareix. 
Q-(GXI 
4  Llançar 2 monedes i observat els costats que apareixen. 


O — (CC CX XC XXI 
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Observem que en aquest experiment el conjunt de resultats possibles consta de 
quatre elements. Així, CC és un sol resultat que té dos components, el mateix amb CX, 
etc. 

4 — Llançar 3 monedes i observar els costats que surten. 

Q — ÍCCC,CCX,CXC,XCG,CXX,XCX,XXCG,XXXI 
4  Llançar un dau i observar la puntuació que apareix. 
Os (1,2,3,4,5,6l 
4 o Llançar dos daus i observar la suma de les puntuacions que apareixen. 
O 3 (2/3456,7,8,9,10,11,123 
4. Comptar el nombre de persones que baixen d'un autobús en una parada de- 
terminada. 
O — (0,123,.,N) 
4 o Extreure un nombre a l'atzar de l'interval (0,1). 


O-ix/xE (01) 


Definició. Un succés és qualsevol subconjunt del conjunt de resultats possibles €). 


Un subconjunt que conté un sol punt mostral sanomena succés elemental. 


2.2 Concepte de probabilitat 


Donats uns successos, cal assignar valors numèrics a les diferents possibilitats d'ocur- 
rència dels distints successos. Aquests valors numèrics seran la probabilitat de tals suc- 
cessos. 

Operacions elementals amb la probabilitat. Notarem amb P(A) la probabilitat d'un 
succés A. A continuació mostrem un conjunt de resultats referents a les operacions que 
es poden realitzat amb les probabilitats. 

a) O8 P(A) £ 1. 

b) PO), 

c). Sent 8 el conjunt buit o succés impossible, llavors P(Ó) — O. 

d) Si A: és el conjunt (succés) complementari d'A, llavors: P(A) £ P(A) — 1. 

e) Si A i B són successos qualssevol, aleshores P(AUB) — P(A) - P(B) — 

P(ANB). 
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2.3 Concepte de variable aleatòria 


Definició. Sigui 2 un espai mostral. Una variable aleatòria X és una funció definida so- 


bre €) de manera que a cada succés elemental de C) li fa correspondre un nombre real. 


Exemples. En cada cas, Q2 serà l'espai mostral que sobté en fer l'experiment aleatori 


corresponent: 


t 


Llançar una moneda i observar el costat que apareix. 
XX Q — RX 
C i 1 
X — 0 
Llançar 2 monedes i observar els costats que apareixen. 


X: Q — R 


CC — 1 
CX 2 
XC — 3 
RX — 4 
Llançar un dau i observar la puntuació que apareix. 
X Q —- R 
1 — 1 
2 — 2 
3 — 3 
do 4 
5 — 5 
6 — 6 


Llançar dos daus i observar la suma de les puntuacions que apareixen. 
P, CL 0) —- NN 
Ds. 2 


(66) — — 12 
Comptar el nombre de persones que baixen d'un autobús en una parada de- 


terminada. 


i 
o 


Extreure un nombre a l'atzar de l'interval (0,1). 
X Q — X 


X dE X 
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Observació. Normalment, si l'espai mostral és quantitatiu, la variable aleatòria as- 
signa els valors que es corresponen amb el succés. Si l'espai mostral és qualitatiu, l'assig- 
nació que fa la variable aleatòria és més arbitrària. 

Definició. Una variable aleatòria X és discreta si el nombre de valors que pot agafar 
és numerable (pot ser Ànit o infinit). Això vol dir que els valors es poden comptar i que 
sempre sabem quin valor va després d'un altre. En els cinc primers exemples anteriors 
ens trobem amb variables aleatòries discretes. 

Definició. Una variable aleatòria X és contínua si els seus valors són un o més in- 


tervals de la recta real. L'últim exemple anterior és una variable aleatòria contínua. 


2.4 Variables aleatòries discretes: funció de probabilitat 


Cada valor d'una variable aleatòria discreta té associada una probabilitat. En el primer 
exemple de l'apartat anterior, P(X — 1) és la probabilitat que la variable aleatòria agafi 
el valor 1 o, dit d'una altra manera, la probabilitat que surti cara quan llancem la mo- 
neda. 

Definició. Si X és una v, a. discreta, P(X — x) és una funció de probabilitat de la v. 
a. X si es compleixen les propietats seguents: 

4 P(X S x) 20 per a tots els valors x que pren la v. a. X. 

e SP(X - x) - 1 (la suma de les probabilitats per a tots els valors que pren la 

v.a. X és 1). 

Exemple. Considerem el llançament de dos daus i la v. a. X que representa la suma 
de les cares dels dos daus. Aquesta v, a. és discreta. Aleshores, l'assignació de la v. a. i la 
funció de probabilitat queden: 


Succés elemental Valor de la v.a. —)Funció de probabilitat 
(1,1) 2 1/ 36 
(12,21) 3 2/ 36 
(1,3), (2,2), (3,1) 4 3 / 36 
(1,4), (2,3), (3,2), (4,1) 5 4/ 36 
(1,5), (2,4), (3,3), (4,2), (5,1) 6 5 / 36 
(1,6), (2,5), (3,4), (4,3), (5,2), (6,1) 7 6 / 36 
(2,6), (3,5), (4,4), (5,3), (6,2) 8 5 / 36 
(3,6), (4,5), (5,4), (6,3) 9 4/ 36 
(4,6), (5,5), (6,4) 10 3 / 36 
(5,6), (6,5) 11 2/ 36 
(6,6) 12 1/ 36 
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D'aquesta manera P(X - 2) és la probabilitat que la v. a. prengui el valor 2, que la 
suma de les cares dels daus sigui 2, i val 1/36 ja que hi ha un cas favorable d'entre els 36 
possibles (si els daus són perfectes). El mateix podríem comentar sobre els altres valors 
de la v. a. X. Observem que la suma de les probabilitats de tots els valors és 1. 

Definició. Si X és una v. a. discreta quantitativa, la funció de distribució de X en 


un punt x és la probabilitat acumulada fins a x. 


2.5 Variables aleatòries contínues: funció de densitat 


En el cas discret, assignàvem una probabilitat concreta a cada valor de la v. a. En el cas 
de v. a. contínues, el nombre de possibles valors és infinit no numerable i la probabilitat 
que la v, a. prengui un valor determinat és O. Per tant, en aquest cas no podem assignar 
probabilitats a valors individuals de la v. a. i hem de treballar amb intervals. Això ho 
farem mitjançant la funció de densitat. 

Definició. La funció de densitat, f(x), d'una v. a. contínua X és la funció que com- 
pleix: 

a) fíx) 20, —oexeo 


b) ffodrel 
c) PíasXsb)- (fix) dx 


Exemple. La v. a. X. representa el temps (en minuts) que hi ha entre dues arriba- 


des consecutives a una botiga i la seva funció de densitat és donada per: 


pr xo 0 
fo - 
0 xs0 


Ens demanen: 
a) El valor de R perquè f(x) sigui una funció de densitat. 


b) La probabilitat que una persona arribi entre 2 i 6 minuts després de l'anterior. 


c) La probabilitat que una persona arribi abans que passin 8 minuts des que ha 


arribat l'anterior. 
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Solució 

a) f(x) compleix la primera propietat de les funcions de densitat. Per complir la 
segona ha de passar que Í fo) dx- L és a dir, j 0 dx £ fi Re P dx- 1,La primera integral 
SO P2RS2E Sl SR - 1/2. 


és O, per tant s'ha de complir que j he dec 1 SG 2he 
0 


b) Aquest apartat ens demana 


1 


6 6 6 
P(22X6) — Í 5 dx — 20 et se Mel 03181. 
2 2 


8 8 
c) Busquem P(X8) — j L ST dx — ec Ú — dE el — es HI - 0.9817. 
0 


0 


Definició. Si X és una v, a. contínua, la funció de distribució de X en un punt x és 


la probabilitat acumulada fins a x. 


2.6 Esperança matemàtica 


Lesperança matemàtica és un concepte que es correspon amb el concepte de mitjana 
estudiat al tema d'estadística descriptiva. En aquest cas, treballem amb variables aleatò- 
ries i l'esperança matemàtica serà el valor mitjà teòric de tots els valors que pot prendre 
la v. a. Lesperança matemàtica no ha de coincidir necessàriament amb la mitjana d'una 
sèrie de dades obtingudes a partir de la v, a. que estem estudiant, encara que, si el nom- 
bre de vegades que es fa l'experiment és cada vegada més gran, la mitjana de les dades 


tendirà al valor de l'esperança. 


Definició. Lesperança matemàtica, E(X), d'una variable aleatòria X és el valor 


mitjà teòric de X i es calcula mitjançant les fórmules segients: 
E(Q - BS XP si X és discreta 
E(O — fa - 00 dx si X és contínua 
on p(x) i f(x) són les funcions de probabilitat i de densitat, respectivament. 


Notació. Lesperança matemàtica també la notarem amb la lletra grega u. 
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Exemple 1. Agafem la v. a. X, que representa la suma de les cares de dos daus, i 
busquem la seva esperança. En aquest cas, X és discreta i hem d'aplicar la fórmula cor- 
responent: 


12 


us xa) 2:(1/36)43:(2/36)44-(8/36)4... 4 11: (2/36)4 12: (1/36)27 
x2 


Exemple 2. Agafem la v. a. X, que representa el temps entre dues arribades conse- 
cutives en una botiga, i busquem la seva esperança. En aquest cas, X és contínua i hem 
d'aplicar la fórmula corresponent: 


4 fet dr-0-2e7 


0 0 0 


— 2 


En . ade la Es 2 
ds erm se dx — (per parts) — —xe 


2.7 Variància 


La variància d'una v. a. és un concepte que es correspon amb el concepte de variància 
estudiat al tema d'estadística descriptiva. En aquest cas, treballem amb variables aleatò- 
ries i la variància d'una v. a. mesura la dispersió mitjana dels valors d'una v, a. respecte 
de la seva esperança. Igual que passava amb l'esperança, la variància d'una v, a. no ha de 
coincidir necessàriament amb la variància d'una sèrie de dades obtingudes a partir de la 
V. a, que estem estudiant, encara que, si el nombre de vegades que es fa l'experiment és 


cada vegada més gran, la variància de les dades tendirà al valor de la variància de la v. a. 


Definició. La variància d'una v. a., Var( X), d'una variable aleatòria X és l'esperança 


de la nova v. a. (XX — E(X)J"i es calcula mitjançant les fórmules: 
Var(O — y ix— EF : pa si X és discreta 
Var(X) — f ix— ECOlP : fa) dx. — si X és contínua 
on p(x) i f(x) són les funcions de probabilitat i de densitat, respectivament. 
Definició. La desviació típica o estàndard d'una v, a. és l'arrel quadrada de la va- 
riància, 


Notació. La variància d'una v. a, també la notarem amb la lletra grega O", i la des- 


viació típica, amb O. 
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Fórmula alternativa 
La variància d'una v. a. X també la podem obtenir fent: Var(X) — E(X2) — (E(X)). 


En aquest cas, les fórmules per calcular la variància serien: 
Var(X) - b) Ex: pol — IECOV si X és discreta 
Var( a) - f Lé fol de — IEOP — si X és contínua 


Exemple 1. Agafem la v. a. X, que representa la suma de les cares de dos daus, i 
busquem la seva variància. En aquest cas, X és discreta i hem d'aplicar la fórmula cor- 


responent: 


12 


Gi s Y) X-E(X)F pa) — ECÓ) - IECOF — 3 xX pa)- ÉS 


xe2 


— 27 (1/36) 4 37-(2/36) 4 47(3/36) 1... 4 117-(2/36) € 127 -(1/36) - 49 — 54.83-49 — 5.83. 


Exemple 2. Agafem la v. a. X, que representa el temps entre dues arribades con- 
secutives a una botiga, i busquem la seva variància. En aquest cas, X és contínua i hem 


d'aplicar la fórmula corresponent: 


00 


os EO) —IE P - fe A) dxr— 2 — fF 5 e P dx— 4 - (per parts) — 


00 fe) 


a ral 


4 2 fre 7 dx — 4 — (per parts) — 0 — 4xe — 
0 


LA fet dr-4- 
j 


0 0 


00 


0 RO Be PJ) —428—4-4 


0 
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3, Models de distribució de probabilitats 


3.1 Distribucions discretes 


Donarem en aquest apartat uns models de distribucions de probabilitats que tenen 


com a base variables aleatòries discretes. 


3.1.1 Distribució de Bernouill: 


Definició. Direm que una v, a. X segueix una distribució de Bernouilli quan la v. a, no- 
més pot prendre 2 valors diferents (Oi 1). 
Exemples. En cada cas, Q2 serà l'espai mostral que sobté en fer l'experiment aleatori 
corresponent: 
4 Llançar una moneda i observar si surt cara o no: 
P, CL 0) —o NR 
C — 1 
X — 
4  Llançar un dau i observar si surt múltiple de 3 o no: 
D, CE 0. —- RX 
3,6 — 1 
1,2,4,5 — 0 
4, Agafar un iogurt i veure si està caducat o no: 
P, CL 0) — R 
caducat. — 1 
no caducat. — 0 


4 — Mitar la nota d'un alumne i veure si ha aprovat o no: 
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aprovat EE 


X: 0) — RN 
1 
no aprovat. — — 0 


Si p és la probabilitat que la v. a. X prengui el valor 1, la funció de probabilitat 
d'una v, a. que segueix una distribució de Bernouilli és: 
(sp OpíO)sl-psg 
Propietats 
1) Lesperança d'una Bernouilli és p ja que: 
E(X)-1.ptO.q-p 
2) La variància d'una Bernouilli és pq ja que: 


Var(X) — E(X2) — (EX) S Dept OO qi p—PSp-(I—p)- pq 


3.1.2 Distribució binomial 


Definició. Una v. a. X segueix una distribució binomial si es repeteix n vegades (de 
manera independent) una experiència de tipus Bernouilli. La v. a. X és el nombre de 
vegades que apareix el valor 1 en una Bernouilli i, per tant, els valors que pot prendre 
X estaran entre Oi n. 

Exemples. En cada cas, Q2 serà l'espai mostral que sobté en fer l'experiment aleatori 
corresponent: 


4  Llançar 10 monedes i observar quantes cares surten: 
X Q — N 
0 cares — 0 


1 cara — 1 


10 cares — — 10 
4 — Llançar 6 daus i observar quants múltiples de 3 apareixen. 
4 Agafar 20 iogurts i veure quants estan caducats. 
4 — Mirar les notes d'una classe de 30 alumnes i veure quants han aprovat. 


La funció de probabilitat d'una v. a. que segueix una distribució binomial amb 
paràmetres n i p (n és el nombre de vegades que es repeteix l'experiència Bernouilli i p 


és la probabilitat d'obtenir el valor 1 en una sola experiència Bernouilli), és: 


38 


ESTADÍSTICA PRÀCTICA PAS A PAS 


pd - PX) — ea pt ECO. en 
R 


Notació. Una v, a. X que segueixi una binomial amb paràmetres nu i p la notarem 
amb B(n,p). 

Propietats 

1) Lesperança d'una B(n,p) és np ja que és la suma de n Bernouilli independents 
(cadascuna amb esperança p). 

E(X) — np 

2) La variància d'una B(n,p) és npq ja que és la suma de n Bernouilli independents 

(cadascuna amb variància pq). 


Var(X) — npq 


Exemple. Agafem la situació del tercer exemple anterior on es miren 20 iogurts i 
observem quants estan caducats, suposem que històricament hi ha un 1596 de iogurts 
caducats. Aquesta v, a. segueix una binomial de paràmetres p — 0.15 i n — 20, ja que 
0.15 és la probabilitat que un iogurt estigui caducat, Si ens preguntem per la probabi- 
litat que, entre els 20 iogurts observats, n'hi hagi 4 de caducats, apliquem la funció de 


probabilitat d'una B(20,0.15) pera R — 4: 


20 
p9 Pare j - 0.15Í- 0.851 — 0.1821. 
4 


Lesperança és: E(X) — np — 20. 0.15 -— 3. 


La variància és: Var(X) — npq — 20 -0.15 . 0.85 — 2,55. 


3.1.3 Distribució de Poisson 


Definició. Una v. a. X segueix una distribució de Poisson amb paràmetre À si la funció 
de probabilitat és donada per: 
L3 
RA 


PS PX) se H ESO, 1,2,.. 


Propietats. Si X és una Poisson de paràmetre À: 
1) EX) SA, 
2) Var(X) - A. 
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3) Si X, i X, són v. a. independents de Poisson de paràmetres À, i À., respectiva- 


ment, la variable suma X — X, Y X, segueix una distribució de Poisson de paràmetre 


ASA, A, 


Exemple. Suposem que el nombre de cotxes que passen per una cruilla en un minut 
segueix una Poisson de paràmetre À — 10. Si ens preguntem per la probabilitat que pas- 
sin 7 cotxes en un minut per la cruilla, apliquem la funció de probabilitat per a R — 7: 


PN - P(X-7)—e 0.09 


do 10 
HH 
Lesperança és: E(X) — À — 10. La variància és: Var(X) — À — 10. 


Si ens demanen la probabilitat que passin per la cruilla 19 cotxes en 2 minuts, hem 
d'aplicar la tercera propietat (ja que el nombre de cotxes que passen en 2 minuts és la 
suma de dues distribucions de Poisson de paràmetre 10 per a cadascuna) i obtenim que 


el nombre de cotxes que passen en 2 minuts segueix una Poisson de paràmetre 20: 


19 
p(19)— P(X-19) — el 0 — 0.0888. 


3.1.4 Distribució uniforme discreta 


Definició. Una v, a. X segueix una distribució uniforme discreta si la v. a. pot prendre n 
valors diferents amb la mateixa probabilitat. Els valors els podem ordenar des d'1 fins a 


ni obtenim la funció de probabilitat: 


PE) - HX el bed it 


n 


Propietats. Si X és una uniforme discreta: 


1) E(X) — Es 
2) Var(X) — 1-1 l 
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3.2 Distribucions contínues 


Donarem en aquest apartat uns models de distribucions de probabilitats que tenen 


com a base variables aleatòries contínues. 


3.2.1 Distribució uniforme contínua 


Definició. Una v, a. X segueix una distribució uniforme contínua si és el resultat d'esco- 
llit un nombre a l'atzar dins d'un interval (a,b). La funció de densitat és: 
1 xE(a,b) 
AO z b-a 
0 xE(a,b) 


Propietats. Si X és una uniforme contínua: 


ab 
1) El - G 
6) o (b-a/J 
) Var(X) rs 


Exemple. Sóc a la parada d'un autobús i sé que passa un autobús, de manera regu- 
lar, cada 20 minuts. Suposant que arribo a la parada d'autobús d'improvís i sense saber 
l'horari de pas, el temps d'espera és una variable aleatòria que segueix una distribució 
uniforme entre O i 20 minuts. Si vull saber la probabilitat que hagi d'esperar menys de 


7 minuts he de fer: 


1 Del 


dx — 
20 


7 
PX) - 
Lee l29-0 20 


0 
Si agafo l'autobús moltes vegades, em puc preguntar pel temps mitjà d'espera: això 
és equivalent a buscar l'esperança de la v. a. temps d'espera i hem de fer: 


atb 0120 
2 2 


E(X) - 10 


3.2.2 Distribució exponencial 


Definició. Una v, a. X segueix una distribució exponencial si la seva funció de densitat és: 
Ne GE a dl 


Rel 
0 xs0 


41 


Josep Maria Mateo Sanz 


Aquesta funció depèn d'un paràmetre À. 


Propietats. Si X és una v. a. exponencial: 


1 
1 Es 
) EX 7 


1 

2) Var(X)- — 
qé 

Exemple. Suposem que el temps que es tarda, en minuts, en canviar una roda se- 

gueix una v, a. exponencial amb mitjana 5 minuts. Llavors el paràmetre de la v. a. expo- 

nencial serà À — 1/5. Si busquem la probabilitat que una persona tardi més de 6 minuts 


a canviar una roda, hem de fer: 


3.3 Llei normal general: N(p,0) 


Definició. Una variable aleatòria contínua X es diu que es distribueix normalment, o 


que segueix una llei normal, si la seva funció de densitat és de la forma: 


my 
si l cm OE XC 0,- DE US OD, GD 0). 


La notarem amb N (y, O). 


Propietats 
1) La distribució normal depèn de dos paràmetres u i O", que són la seva esperan- 
ça i variància, respectivament, 
ElX) Si Var (X) -— 0" 


2) La distribució normal és simètrica respecte de la seva esperança . 


3) Si X és normal N(y, O) i a 2 O és una constant, a : X és N(a : y, Jal : 0). 
4) Si X, i X, són normals N(u, G,) i N(u,, O,) i independents, llavors X — X, Y 
X, també és normal: N(utM.,4/oi Y 02 ). D'aquesta propietat podem deduir el teorema 


seguent: 
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Teorema de l'addició. Si una variable aleatòria, X, és suma de n variables normals in- 
dependents, X, amb mitjanes y, i variàncies 67, X es distribuirà també normalment amb 


mitjana igual a la suma de mitjanes i variància igual a la suma de variàncies, és a dit, 
De (a Ce el L i 
a XIN ts  X0) 
Xi o N (uU, 04) f 5 


Exemple. Suposem que Noè ja ha embarcat quasi tots els animals a la seva arca i 
que només li falten una parella d'elefants i una parella de girafes. Sabem que els pesos, 
en quilos, d'aquests animals segueixen distribucions normals amb els paràmetres se- 


guents: 


X sefan mascle di N(5150 2 400) 
À fan femella da N(2950 : 200) 
Noi mascle N(1200 2 150) 
X N(850, 100) 


(I 
girafa femella 


Si l'arca només té marge per augmentar en 11000 quilos el seu pes de càrrega, 


quina distribució té la variable que modela el pes conjunt dels quatre animals2 


Solució 
La variable que volem estudiar és el pes total dels quatre animals, X. La variable X 


és la suma de les 4 variables X , les quals seguei- 


elefant mascle" 7 Velefant femella" X grata mascle 1 Pà femella 


xen distribucions normals. Com que: 


5150 4 2950 Y 1200 Y 850 — 10150 i 


4007 4 2007 41507 41007 — 482.18. 


la variable X seguirà una distribució normal amb els paràmetres segúients: X v N(10150, 


482.18) i cal buscar P(X € 11000). 


3.3.1 La normal estàndard: N(0,1) 


Definició. La normal estàndard és la normal N(0,1) de mitjana O i desviació estàndard 
1. També rep els noms de normal tipificada i de normal reduida. Generalment és la 


normal que es troba en les taules estadístiques. Al llarg del text la notarem amb Z. 
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Qualsevol altra variable normal X que sigui N(u,O) pot passar a normal reduida 


fent el canvi: 


, . X 
D'aquesta manera obtenim: P(x, s X 8 x,) — P(z,8 Z 8z,)on z7 


1 

Exemple: suposem que el pes, en quilos, de les persones de certa població segueix 
una distribució normal X x N(72, 18) i volem trobar la probabilitat que una persona 
triada a l'atzar pesi entre 65 i 75 quilos. Com caldria buscar aquesta probabilitat si hem 


de treballar amb la taula de la normal estàndard2 


Solució 
si - x- 
Cal estandarditzar els valors 65 i 75 mitjançant la transformació z— o En 
el 


aquest cas, tindrem: 


H ul tg ac 


0.17 


Z) 


Per tant, és el mateix buscar P(65 s X s 75) que buscar P(—0.39 s Z s 0.17). 


3.4 Distribucions deduides de la normal 
3.4.1 Distribució Rbi quadrat 


Definició. Siguin Z, .., Z,, v. a. N(0,1) independents i considerem la variable X,  — 
LE Heet Z, 4 Es diu que X, és la v. a. amb distribució lhi quadrat amb m graus de 
llibertat. 


Propietats 
I)E(x, )sm Var(X,) S 2m 


2) Si X, i X,/ són independents amb m i n graus de llibertat, llavors X,, ,,— X,, t 


XP, és a dir, la suma és una altra hi quadrat amb graus de llibertat la suma dels graus 


de llibertat. 
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3.4.2 Distribució t de Student 


Definició. Sigui Z una v, a. amb distribució N(0,1). Sigui X," una altra variable amb 
distribució hi quadrat amb m graus de llibertat. Suposem Z i X, " independents. Es de- 
fineix la distribució t de Student amb m graus de llibertat com la que segueix la v, a. 


A 


Vx,/m 


ts 


Propietats 
1) Lesperança i variància existeixen per am X lim 5 2, respectivament. 


E()-O0 so m51 
Var() - m/ (m—2) so m5y2 


2) La distribució límit de t, per am — 00, és N(0,1). 


3.4.3 Distribució F de Fisber-Snedecor 


Definició. Sigui U una v. a. amb distribució X, "i V una altra v. a. amb distribució X,". 
Suposem que U i V són independents. Es defineix la distribució F amb m graus de 
llibertat al numerador i n graus de llibertat al denominador com a: 


p-U/ 
V/n 


També es diu que F té m i n graus de llibertat o (m,n) g. L. i es nota com a F, ,. 


Propietats 
1) Lesperança i variància existeixen per a 4n X 2in X 4, respectivament. 


E(P) ES n/(n—2) si ns 2 


2 
P RD 
mín- 2 Y (n- 4) 


Var(P) — 
2) Si F té distribució F, , llavors 1/F té la distribució F, ,. La relació entre F,, 


P(F,,82)- 1-P(F,,si/x)- P(F,, 2 1/3) 


mn 


3) La distribució límit de F, quan n — 0 és X 7. 
mn m 
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3.5 Convergència a la llei normal: teorema del límit central 


Enunciarem un teorema que, sota certes condicions, permet realitzar la substitució d'una 
variable aleatòria binomial per una de normal. Aquest teorema rep el nom de teorema de 


Laplace - De Moivre. 

Teorema de Laplace - De Moivre. Sigui X, una variable aleatòria binomial de parà- 
metres n i p (per tant, amb mitjana np i desviació típica VP (Í- PJ), La distribució de la 
variable aleatòria A tendeix a una normal N(np, — np(1- p)) a mesura que fem tendir n 


cap a infinit mantenint p constant o X, N(np,  np(1- p)). 


n— o 


Exemple. Suposem que la probabilitat que una peça sigui defectuosa és del 0.02. 
Si agafem 20000 peces, quina és la probabilitat que: 


a) El nombre de peces defectuoses sigui 4102 


b) El nombre de peces defectuoses estigui entre 400 i 4502 


Solució: 

a) La variable X, nombre de peces defectuoses, segueix una distribució binomial 
B(20000, 0.02), però, com que n — 20000 és prou gran, podem aproximar la distribució 
binomial per una distribució normal Xmap EN aqUESt Cas, de paràmetres N(400, 19.8). 
Per tant, serà pràcticament el mateix buscar P(X — 410) amb la distribució binomial que 
buscar P(X,,,, 
P(X 


normal 


4 5 410) amb la distribució normal. El problema apareix quan busquem 
— 410), ja que la probabilitat en un punt de qualsevol distribució contínua és 
0. Per solucionar aquest problema, que apareix sempre que aproximem una distribució 
discreta per una distribució contínua, haurem d'usar la correcció per continuitat, que 
implica que cada valor x de la variable discreta sassocia a l'interval (x — 0.5 , x £ 0.5) 
quan l'aproximem a una distribució contínua. En el nostre cas, serà aproximadament el 


mateix buscar P(X — 410) que buscar P(409.5 8 X,,, $ 410.5). 


b) Actuant de la mateixa manera que en l'apartat anterior, serà aproximadament el 


mateix buscar P(400 s X $ 450) que buscar P(399.5 S X,,, € 450.5). 


3.5.1 Teorema del límit central 


Una generalització del teorema de Laplace - De Moivre és la que es coneix amb el nom 


de teorema del límit central. Aquest teorema se sol aplicat quan n Z 30. 


46 


ESTADÍSTICA PRÀCTICA PAS A PAS 


Teorema 1. Si X,, X, .., X,, són variables aleatòries independents, desperances 


E(X) — y, i variàncies Var(X, ) — O/ finites, i — 1, ..., n, llavors sota certes condicions 


i 


generals, sobté que: 


, n 
it A, mm Nu, oi 
do FI 


Teorema 2. Si X,, X, .., X, són variables aleatòries independents, que provenen 
de la mateixa distribució, amb esperança E(X) — yi variància Var(X) — O" finites, i — 


1, .., n, llavors, sota certes condicions generals, sobté que: 


Nu, (no ) 


Xit. RX, 


n—o 


Exemple. Suposem que es vol anar de Tarragona a Montserrat (100 quilòmetres) 
en una cursa de relleus on cada atleta participant fa un quilòmetre. Cada atleta tarda a 
fer un quilòmetre una mitjana de 4 minuts amb una desviació estàndard de 0.5 minuts. 
Quina distribució segueix la variable "temps total per fer els 100 quilòmetres de recor- 


nH 
regut 2 


Solució 

La variable X que modela el temps total a fer els 100 quilòmetres de recorregut és 
la suma de les variables que modelen el temps que triga cada atleta a fer un quilòmetre, 
i encara que la distribució del temps de cada atleta no segueixi una normal, com que 


tenim que nu — 100, podem fer l'aproximació del teorema anterior: 
Xe Xtec Xip o N(4005) 


Teorema 3. Si X,, X, .., X, són variables aleatòries independents, que provenen 
de la mateixa distribució, amb esperança E(X) — yi variància Var(X) — O' finites, i — 


1, .., n, llavors, sota certes condicions generals, sobté que: 


Xita FA, 


ar o 
EU —imi— NI i 
h h ren ú cj 


Exemple. Suposem que el temps mitjà diari que triga un estudiant a anar de casa seva 


a la facultat és de 23 minuts amb una desviació estàndard de 4 minuts. Si observem aquest 
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estudiant durant 60 dies, quina distribució segueix la variable "temps mitjà durant 60 dies 
a fer el trajecte de casa seva a la facultat" 2 


Solució 

La variable X, que modela el temps mitjà durant 60 dies a fer el trajecte de casa de 
lestudiant a la facultat és la mitjana de les variables que modelen el temps que triga cada 
dia a fer aquest trajecte, i encara que la distribució del temps diari no segueixi una normal, 


com que tenim que 1 — 60, podem fer l'aproximació del teorema anterior: 


pe Xitee HXe 


Xa a — N(23,0.52) 


Observacions 

1) El teorema de Laplace - De Moivre és un cas particular del teorema central del 
límit, perquè una variable aleatòria binomial és suma de variables aleatòries de Berno- 
uilli independents. 


2) El teorema de l'addició es refereix a la distribució d'una variable suma de diver- 
ses variables normals independents que és exactament normal, mentre que el teorema 
central del límit es refereix a la d'una variable suma de diverses variables independents, 
però no necessàriament normals, que saproximarà a la normal d'una manera millor a 


mesura que augmentem el nombre de sumands. 


3.6 Ús de les taules estadístiques 
3.6.1 La taula normal estàndard 


Aquesta taula la farem servir quan treballem amb v. a. normals. Si la normal amb la qual 
estem treballant no és estàndard, podem transformar-la perquè ho sigui. 

La columna de l'esquerra correspon als punts Z, amb un decimal, a partir dels quals 
volem trobar la probabilitat, i la Ala de dalt correspon al segon decimal dels punts Z. Els 


valors que hi ha al mig de la taula són les probabilitats associades a l'interval (z,2). 


Exemples 

a) Suposem que Z — N(0,1) i busquem P(Z 3 1.67). Amb la taula podem trobar 
aquesta probabilitat directament. A la columna de l'esquerra mirem la fila correspo- 
nent a 1.6 i dintre d'aquesta fila mirem quina àrea està associada quan a dalt hi ha el 


valor 7 (el qual és el segon decimal). Veiem que l'àrea associada és 0.0475. Per tant, 
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P(Z 2 1.67) — 0.0475. 
b) Suposem que Z — N(0,1) i busquem P(Z s —1.67). Com que la normal estàn- 


dard és simètrica respecte al O, la probabilitat que hi ha entre —o0 i —1.67 és la mateixa 
que hi ha entre 1.67 i 00. Per tant, puc calcular aquesta última com hem fet a l'exemple 
a) i obtenim: 
P(Z8-167 P(1673 2) — 00475, 
c) Suposem que Z — N(0,1) i busquem P(0.54 s Z s 1.67). Amb la taula podem 


trobar les probabilitats que hi ha entre 0.54 i 0 i entre 1.67 i 90. A nosaltres ens interes- 
sa la probabilitat que hi ha entre 0.54 i 1.67 i aquesta probabilitat la podem aconseguir 


restant de l'àrea que hi ha entre 0.54 i 0 l'àrea que hi ha entre 1.67 i 00. Per tant: 
P(0548 Z 8 167) — P(Z3 0.54) — P(Z 3 1.67) — 0.2946 — 0.0475 — 0.2471 


d) Suposem que Z — N(0,1) i busquem P(—1.67 s Z s —0.54). Com que la nor- 
mal estàndard és simètrica respecte al O, la probabilitat que hi ha entre —1.67 i —0.54 
és la mateixa que hi ha entre 0.54 i 1.67. Per tant, puc calcular aquesta última com hem 
fet a l'exemple c) i obtenim: 


P(-1672 Z 8 0.54) - P(0.54 2 Z 3 1.67) - 0.2471 
e) Suposem que Z — N(0,1) i busquem P(—0.54 s Z s 1.67). Amb la taula podem 


trobar les probabilitats que hi ha entre —o0 i —0.54 i entre 1.67 i 00. A nosaltres ens 
interessa la probabilitat que hi ha entre —0.54 i 1.67 i aquesta probabilitat la podem 
aconseguir restant d'1 l'àrea que hi ha entre 1,67 i 00 i l'àrea que hi ha entre —0 i —0.54, 


Per tant: 
P(-0548 Z8 1677 1- (P(Z 8 0.54) 4 P(Z 3 1.67) - 
1.— (0.2946 4 0.0475) — 0.6579 
f) Suposem que Z — N(0,1) i busquem P(O s Z s 1.67). A la taula trobem la pro- 
babilitat que hi ha entre 1.67 i 00 i sabem que la probabilitat que Z sigui més gran que 


0 és 0.5. A nosaltres ens interessa la probabilitat que Z estigui entre O i 1.67 i aquesta 


probabilitat la podem aconseguir restant de 0.5 làrea que hi ha entre 1.67 i 00, Per tant: 
P(O2 Zs 167) - 0.5 — 0.0475 — 04525. 
g) Suposem que X — N(50,12) i busquem P(44 s X s 58). La v. a. no és una nor- 


és una 


mal estàndard i, per tant, hem de transformar les dades. Sabem que Z-— 
normal estàndard i hem de fer: 


44-50 X-H Q 58-50 


P(44 S X 8 58) — P — P(-0.5 $ Z 8 0.67). 
( ET z JR ) 
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Una vegada hem passat les dades a una normal estàndard, ja podem treballar amb 
la taula: 


P(—05 8 Z 80.67) - 1— (P(Z 8 —0.5) 4 P(Z 3 0.67)) 
— 1— (0.3085 4 0.2514) — 0.4401 


b) Suposem que Z — N(0,1) i busquem un punt z de manera que P(Z X 2) — 
0.0918. Ara ens donen la probabilitat i hem de trobar el punt. Per la dada que ens do- 
nen sabem que el punt Z serà un nombre positiu. Hem de buscat a l'interior de la taula 


l'àrea 0.0918 i veure amb quin punt es correspon. El punt és Z — 1.33. 


i) Suposem que Z — N(0,1) i busquem un punt z de manera que P(Z 2 z) — 
0.8238. Ara sabem que el punt Z serà un nombre negatiu. Com que la taula només 
treballa amb nombres positius, haurem d'usar la simetria de la normal. El punt Z que 
compleix P(Z 3 z) — 0.8238 també compleix que P(Z s z) — 0.1762. Hem de buscar 
un punt positiu Z' de manera que P(Z 2 Z') — 0.1762 i després canviar-li el signe, ja que 
es complirà que Z — —Z. Buscant a l'interior de la taula l'àrea 0.1762, obtenim el punt Z 


— 0.93 i, per tant, el punt Z que es busca és Z — —0.93. 


j) Suposem que Z — N(0,1) i busquem un punt z de manera que P(Z s z) — 
0.9207. Ara sabem que el punt z serà un nombre positiu, però ens estan donant l'àrea 
acumulada fins al punt (l'àrea de l'esquerra) i la taula treballa amb l'àrea de la dreta. El 
punt z que compleix P(Z s z) — 0.9207 també compleix que P(Z 2 z) — 0.0793. Hem 
de buscar a l'interior de la taula l'àrea 0.0793 i veure amb quin punt es correspon. El 
punt és z — 1.41. 


R) Suposem que Z — N(0,1) i busquem un punt z de manera que P(Z s z) — 
0.3228. Ara sabem que el punt z serà un nombre negatiu i haurem d'usar la simetria de 
la normal per trobar-lo. Hem de buscar un punt positiu Z de manera que P(Z 2 Z) — 
0.3228 i després canviar-li el signe, ja que es complirà que Z — —Z. Buscant a l'interior 
de la taula l'àrea 0.3228 obtenim el punt Z' — 0.46 i, per tant, el punt Z que es busca és 
ZS —0.46, 


3.6.2 La taula Rhi quadrat 


Aquesta taula la farem servit quan treballem amb una v. a. Rhi quadrat. Aquesta taula 
té unes característiques diferents de la taula anterior. 

La columna de l'esquerra correspon als graus de llibertat de la X" amb la qual tre- 
ballem. La fila de dalt correspon a les probabilitats que hi ha entre el punt amb el qual 
estem treballant i 00, Els valors que hi ha al mig de la taula són els punts associats a les 
probabilitats de la fila superior. 
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Exemples 

a) Suposem que X — X",, i busquem P(X 2 7.8). Hem d'agafar la fila corresponent 
als 14 graus de llibertat. Si busquem el punt 7.8 en aquesta fila, veiem que té una pro- 
babilitat associada de 0.9: 


P(ÍX278)- 09 


b) Suposem que X — X",, i busquem P(X s 7.8). Aquest succés és el complemen- 


tari de l'anterior i, per tant, hem de restar d'1 la probabilitat anterior: 
P(Xs78)-1- P(X278)-1-09-041 


c) Suposem que X — X",, i busquem un punt x, de manera que P(X 2 x) — 0.1. 
Ara ens donen la probabilitat i hem de trobar el punt i, per tant, hem de buscar a la fila 


superior l'àrea 0.1 i veure amb quin punt es correspon. El punt és x — 21.1. 


d) Suposem que X — X",, i busquem un punt x de manera que P(X s x) — 0.75. 
Ara ens donen la probabilitat que la v. a. sigui més petita que un punt. La taula ens 
dóna les probabilitats dels successos contraris i hem de trobar el punt de manera que 


PÍXex)sl—PMX Sa) 107525025 ielpuntésx- 17.1, 


3.6.3 La taula t de Student 


Aquesta taula la farem servir quan treballem amb una v, a. t de Student. Aquesta taula 
té unes característiques semblants a la taula anterior, però cal tenir en compte que la 
distribució t de Student és simètrica respecte al zero. 

La columna de l'esquerra correspon als graus de llibertat de la t de Student amb 
la qual treballem. La fila de dalt correspon a les probabilitats que la v. a. sigui més gran 
que el punt amb el qual estem treballant. Els valors que hi ha al mig de la taula són els 


punts associats a les probabilitats de la Ala superior. 


Exemples 

a) Suposem que X — t de Student amb 14 graus de llibertat i busquem P(X z 
2.14). Hem d'agafar la fila corresponent als 14 graus de llibertat. Si busquem el punt 
2.14 en aquesta fila veiem que té una probabilitat associada de 0.025: 


P(X 2 2.14) - 0.025 
b) Suposem que X — t de Student amb 14 graus de llibertat i busquem P(X 82.14). 


Aquest succés és el complementari de l'anterior i, per tant, hem de restar d'1 la proba- 


bilitat anterior: 


P(X 82.14) - 1— P(X2 2.14) - 1 — 0.025 — 0.975 
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c) Suposem que X — t de Student amb 14 graus de llibertat i busquem un punt x 
de manera que P(X 2 x) — 0.1. Ara ens donen la probabilitat i hem de trobar el punt i, 
per tant, hem de buscar a la Ala superior l'àrea 0.1 i veure amb quin punt es correspon. 


El punt és x — 1.35. 


d) Suposem que X — t de Student amb 14 graus de llibertat i busquem un punt 
x de manera que P(X s x) — 0.75. Ara ens donen la probabilitat que la v. a. sigui més 
petita que un punt. La taula ens dóna les probabilitats dels successos contraris i hem de 


trobar el punt de manera que: 


P(Xzax)-1-—P(Xsx)-1- 0.75 - 0.25 i el punt és x — 0.69 


e) Suposem que X — t de Student amb 14 graus de llibertat i busquem un punt 
x de manera que P(X s x) — 0.25, Aquest punt serà a l'esquerra del O (serà negatiu), i 
com que la v. a. és simètrica, el punt buscat és l'oposat del punt que P(X 2 x) — 0.25. El 
punt buscat és —0.69. 


3.6.4 La taula F de Fisber 


Aquesta taula la farem servir quan treballem amb una v. a. F de Fisher. Aquesta taula té 
unes característiques semblants a les dues taules anteriors. 

La fila de dalt correspon als graus de llibertat del numerador de la F de Fisher 
amb la qual treballem i la columna de l'esquerra correspon als graus de llibertat del 
denominadot, Els valors que hi ha al mig de la taula són els punts associats a les pro- 
babilitats. En aquest cas, tenim una taula per a cada probabilitat diferent que es vulgui 
treballar. La primera taula correspon a la probabilitat 0.05 a la dreta del punt, la segona 
a 0.025 i la tercera a 0.01. 


Exemples 


a) Suposem que X — F,, ,. i busquem un punt x de manera que P(X s x) — 0.95. 


10,15 
Hem d'agafar la taula corresponent a la probabilitat 0.05 i buscar el punt que es troba a la 


columna dels 10 graus de llibertat i la flla dels 15 graus de llibertat. El punt és x — 2.54, 


b) Suposem que X — F,,,. i busquem un punt x de manera que P(X s x) — 0.99. 


10,15 
Hem d'agafar la taula corresponent a la probabilitat 0.01 i buscar el punt que es troba a la 


columna dels 10 graus de llibertat i la fila dels 15 graus de llibertat. El punt és x — 3.8. 


c) Suposem que X — F,, ,. i busquem un punt x de manera que P(X 2 x) — 0.99. 


10,15 
Hem d'agafar la taula corresponent a la probabilitat 0.01 i apliquem la propietat 2) de 


la distribució de Fisher, és a dir, s ha d'intercanviar l'ordre dels graus de llibertat, buscar 
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el punt x' que deixa a la seva dreta una probabilitat de 0,01 (o que deixa a la seva esquer- 
ra una probabilitat de 0.99) i assignar x — 1/x: 


0:99 — P(F 945 €2) — P(F, q 8 X) 


El punt x trobat és 4.56. Per tant, x — 1 / 4.56 — 0.219. 


3.7 Funcions d'Excel per calcular probabilitats 
3.7.1 Distribució binomial 


Funció Excel: DIS TR.BINOM. 
Objectiu: buscar probabilitats corresponents als possibles valors d'una distribució 
binomial (n,p). 

Paràmetres: 

4 Nombre èxits: valor del qual volem calcular la probabilitat (ja sigui la proba- 
bilitat exacta o la probabilitat acumulada). 

4 — Intents: paràmetre n de la binomial. 

4 — Prob. èxit: probabilitat p d'aconseguir el que sestà estudiant quan agafem un 
sol element. És el paràmetre p de la binomial. 


4, Acumulat: posar O si només volem la probabilitat que el resultat sigui exac- 
tament "Nombre èxits" i posar 1 si volem la probabilitat acumulada fins a 
"Nombre èxits". 


Enunciat exemple 1 

Tenim 20 iogurts a la nevera. La probabilitat que un iogurt estigui caducat és del 
1596. Quina és la probabilitat que, d'entre els iogurts que hi ha a la nevera, n'hi hagi 6 
de caducats2 


Solució exemple 1 
Usant la funció d'Excel DIS TR.BINOM, hem de posar: 


4. Nombre èxits: 6. 
4 o Intents: 20. 

4. Prob èxit: 0.15, 
4, Acumulat: O. 


La probabilitat demanada és 0.0454 (un 4.549). 
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Enunciat exemple 2 

Tenim 20 iogurts a la nevera. La probabilitat que un iogurt estigui caducat és del 
1596. Quina és la probabilitat que, d'entre els iogurts que hi ha a la nevera, n'hi hagi 6 o 
menys de caducats2 

Solució exemple 2 

Usant la funció d'Excel DIS TR.BINOM, hem de posar: 

4. Nombre èxits: 6. 

4 o Intents: 20. 

4. Prob èxit: 0.15, 

4, Acumulat: 1. 


La probabilitat demanada és 0.9781 (un 97.8196). 


3.7.2 Distribució de Poisson 


Funció Excel: POISSON. 

Objectiu: buscar probabilitats corresponents als possibles valors d'una distribució 
de Poiss(À). 

Paràmetres: 

4  X: valor del qual volem calcular la probabilitat (ja sigui la probabilitat exacta 

o la probabilitat acumulada). 
4 Mitjana: mitjana o paràmetre À de la Poisson. 
4, Acumulat: posar O si només volem la probabilitat que el resultat sigui exacta- 


ment X i posar 1 si volem la probabilitat acumulada fins a X. 


Enunciat exemple 1 

El nombre de clients que arriben a certa entitat bancària segueix una distribució 
de Poisson amb una mitjana de 15 clients per hora. Quina és la probabilitat que durant 
la propera hora arribin 12 clients a l'entitat bancària: 

Solució exemple 1 

Usant la funció d'Excel POISS, hem de posar: 

e X: 12. 

4 Mitjana: 15. 

4, Acumulat: O. 


La probabilitat demanada és 0.0829 (un 8.2996). 
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Enunciat exemple 2 
El nombre de clients que arriben a certa entitat bancària segueix una distribució 
de Poisson amb una mitjana de 15 clients per hora. Quina és la probabilitat que durant 


la propera hora arribin 12 clients o menys a l'entitat bancària2 


Solució exemple 2 
Usant la funció d'Excel POISS, hem de posar: 
t X: 12, 


4 Mitjana: 15. 
: Acumulat: 1. 


La probabilitat demanada és 0.2676 (un 26.769). 


3.7.3 Distribució exponencial 


Funció Excel: DISTR.EXP. 


Objectiu: buscar probabilitats corresponents als possibles valors d'una distribució 


exponencial Exp(À). 
Paràmetres: 
4 —X: valor del qual volem calcular la probabilitat acumulada. 
4 Lambda: paràmetre À de lexponencial. 


4 Acumulat: s ha de posar 1 per calcular la probabilitat acumulada fins a X. 


Enunciat exemple 

El temps que es triga a canviar una roda segueix una distribució exponencial amb 
una mitjana de 5 minuts. Quina és la probabilitat que es tardin menys de 6 minuts per 
canviar la propera roda2 


Solució exemple 
Usant la funció d'Excel DIS TR.EXP, hem de posar: 
t X: 6. 


e Lambda: 0.2 (és el mateix que 1/5). 
4 Acumulat: 1. 


La probabilitat demanada és 0.6988 (un 69.889). 


55 


Josep Maria Mateo Sanz 


3.7.4 Distribució normal 


Funció Excel: DIS TR.NORM. 


Objectiu: buscar probabilitats corresponents als possibles valors d'una distribució 


Normal(yu,O). 
Paràmetres: 
4 —X: valor del qual volem calcular la probabilitat acumulada. 
4 Mitjana: mitjana de la distribució normal. 
4.  Desy estàndard: desviació estàndard de la distribució normal. 


4 Acumulat: hem de posar 1 per calcular la probabilitat acumulada fins a X. 


DISTR.NORMIX) 


u X 


Enunciat exemple 

Suposem que una variable aleatòria X segueix una distribució N(40,8). Quina és 
la probabilitat P(X s 34)2 

Solució exemple 

Usant la funció d'Excel DIS TR.NORM, hem de posar: 

ee. X: 34, 

4 Mitjana: 40. 

4. Desy estàndard: 8. 

4 Acumulat: 1. 


La probabilitat demanada és 0.2266 (un 22.6696). 


Funció Excel: DIS TR.NORM.INV. 

Objectiu: buscar valors d'una distribució Normal(yu,O) corresponents a unes pro- 
babilitats donades. 

Paràmetres: 

4. — Probabilitat: probabilitat acumulada fins al punt que serà la resposta d'aquesta 


funció. 
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4 Mitjana: mitjana de la distribució normal. 


4.  Desy estàndard: desviació estàndard de la distribució normal. 


Probabilidad 


u DISTR.NORM.INV(probabilidad) 


Enunciat exemple 


Suposem que una variable aleatòria X segueix una distribució N(40,8). Quin és el 
valor a que fa que P(X s a) — 0.332 


Solució exemple 
Usant la funció d'Excel DIS TR.NORM.INV, hem de posar: 
4. o Probabilitat: 0.33. 


4 Mitjana: 40. 
4. Desy estàndard: 8. 
El valor a demanat és 36.48. 


3.7.5 Distribució Rbi quadrat 


Funció Excel: DISTR.CHI. 


Objectiu: buscar probabilitats corresponents als possibles valors d'una distribució 
Rhi quadrat amb n graus de llibertat. 


Paràmetres: 


4 X: valor del qual volem calcular la probabilitat corresponent a la cua de la 
dreta. 


4 Graus de llibertat: graus de llibertat de la Rhi quadrat. 
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DISTR.CHIOO 


Enunciat exemple 
Suposem que una variable aleatòria X segueix una distribució Rhi quadrat amb 12 


graus de llibertat. Quina és la probabilitat P(X 2 6.3)2 


Solució exemple 
Usant la funció d'Excel DIS TR.CHL hem de posar: 
4 X: 6.3. 


4, Graus de llibertat: 12. 
La probabilitat demanada és 0.9002 (un 90.0296). 


Funció Excel PRUEBA.CHLINV. 


Objectiu: buscar valors d'una distribució Ehi quadrat amb n graus de llibertat cor- 
responents a unes probabilitats donades. 


Paràmetres: 


4 — Probabilitat: probabilitat corresponent a la cua de la dreta del punt que serà la 


resposta d'aquesta funció. 


4, Graus de llibertat: graus de llibertat de la Rhi quadrat. 


Probabilidad 


PRUCDA. CHLINViprobabllidadi 
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Enunciat exemple 
Suposem que una variable aleatòria X segueix una distribució Rhi quadrat amb 12 


graus de llibertat. Quin és el valor a que fa que P(X 2 a) — 0.752 
Solució exemple 
Usant la funció d'Excel PRUEBA.CHI.INV, hem de posar: 
4 Probabilitat: 0.75. 
4. Graus de llibertat: 12. 


El valor a demanat és 8.4. 


3.7.6 Distribució F de Fisber 


Funció Excel: DISTR.E 


Objectiu: buscar probabilitats corresponents als possibles valors d'una distribució 
F de Fisher amb m i n graus de llibertat. 
Paràmetres: 


4 X: valor del qual volem calcular la probabilitat corresponent a la cua de la 
dreta. 


4 Graus de llibertat: graus de llibertat del numerador de la F. 


4 Graus de llibertat2: graus de llibertat del denominador de la F. 


DS TRE GG 


Enunciat exemple 
Suposem que una variable aleatòria X segueix una distribució F de Fisher amb 12 


i 18 graus de llibertat. Quina és la probabilitat P(X 2 1.4)2 
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Solució exemple 


Usant la funció d'Excel DIS TR.E hem de posar: 


e OX: 14. 
4. Graus de llibertat: 12. 


4, Graus de llibertat2: 18. 


La probabilitat demanada és 0.2518 (un 25.189). 


Funció Excel: DISTR.EINV. 


Objectiu: buscar valors d'una distribució F de Fisher amb m i n graus de llibertat 


corresponents a unes probabilitats donades. 


Paràmetres: 


4. o Probabilitat: probabilitat corresponent a la cua de la dreta del punt que serà la 


resposta d'aquesta funció. 


4 Graus de llibertatl: graus de llibertat del numerador de la F. 


4 Graus de llibertat2: graus de llibertat del denominador de la F. 


Probabilidad 


DISTR.FINVipro babilidadi 


Enunciat exemple 


Suposem que una variable aleatòria X segueix una distribució F de Fisher amb 12 
i 18 graus de llibertat. Quin és el valor a que fa que P(X X a) — 0.852 


Solució exemple 


Usant la funció d'Excel DIS TR.EINV, hem de posar: 


4 o Probabilitat: 0.85. 
4. Graus de llibertatl: 12. 
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4, Graus de llibertat2: 18. 
El valor a demanat és 0.5546, 


3.7.7 Distribució t de Student 


Funció Excel: DISTR.T. 


Objectiu: buscar probabilitats corresponents als possibles valors d'una distribució 
t de Student amb n graus de llibertat. 


Paràmetres: 


4 —X: valor del qual volem calcular la probabilitat corresponent a la cua de la dre- 
ta. NOMÉS s'admeten valors positius. 


4, Graus de llibertat: graus de llibertat de la t de Student. 


4 Cues: hem de posar 1 per calcular la probabilitat corresponent a la cua de la 
dreta. 


Enunciat exemple 

Suposem que una variable aleatòria X segueix una distribució t de Student amb 
12 graus de llibertat. Quina és la probabilitat P(X X 0.94)2 

Solució exemple 


Usant la funció d'Excel DIS TR. I, hem de posar: 


ee X: 0.94, 
4, Graus de llibertat: 12. 
, Ques: 1, 
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La probabilitat demanada és 0.1829 (un 18.299). 


Funció Excel: DISTR.I.INV. 


Objectiu: buscar valors d'una distribució t de Student amb n graus de llibertat 
corresponents a unes probabilitats donades. Aquesta funció NOMÉS busca valors po- 
sitius. 

Paràmetres: 

4. o Probabilitat: probabilitat corresponent al DOBLE de la cua de la dreta del 

punt que serà la resposta d'aquesta funció. Per exemple, si volem trobar el punt 
que deixa a la cua de la seva dreta una probabilitat de 0.4, a "Probabilitat" hem 


de posar 0.8. 


4, Graus de llibertat: graus de llibertat de la t de Student. 


Probabilidad 


0 DIS TR, EL IVIiprobabilidads 


Enunciat exemple 
Suposem que una variable aleatòria X segueix una distribució t de Student amb 


12 graus de llibertat. Quin és el valor a que fa que P(X 2 a) — 0.352 


Solució exemple 


Usant la funció d'Excel DIS TR. L.INV, hem de posar: 
4 o Probabilitat: 0.7. 


4, Graus de llibertat: 12. 
El valor a demanat és 0.3947. 


62 


4. Intervals de confiança 


4,1 Nocions de mostra i mostreig 


Definició. Lestadística té com a objectiu l'estudi de les poblacions, entenent per aquest 
terme un conjunt de persones, coses o, en general, elements amb alguna característica 
comuna a tots ells. 

De l'observació del comportament individual de cada un dels elements que com- 
ponen la població es poden obtenir unes lleis generals per a tots els elements de la 
població. 

Sembla evident que per trobar aquestes lleis generals sigui necessària l'observació 
exhaustiva de tota la població. Inconvenients dorganització, de temps i, en definitiva, 
econòmics fan molt difícil estudiar tots els elements de la població si aquesta és molt 
gran. Per exemple, si volem fer un estudi de la vida de les bombetes que produeix una 
fàbrica, hem d'observar quant de temps passa fins que la bombeta es fon, i això no ho 
farem amb totes les bombetes que es fabriquen (si ho féssim, la fàbrica es quedaria sen- 
se bombetes per vendre). 

Definició. En els casos que no puguem observar tots els elements de la població, 
seleccionarem un conjunt delements de la població, que anomenem mostra, 

Perquè sigui correcta la substitució de l'observació exhaustiva de la població per 
la més limitada observació dels elements que formen una mostra, cal que la composició 
d'aquesta sigui representativa de la composició de la població. 

Definició. S'anomena mostreig la tècnica emprada per a l'obtenció de mostres. 


Definició. Direm que una mostra és aleatòria simple quan: 
1. Cada element de la població té la mateixa probabilitat de ser escollit. 


2. Les observacions es realitzen amb reemplaçament, de manera que la població 


és idèntica en totes les extraccions. 
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4.2 Concepte d'estadístic i de paràmetre 


Definició. Donada una mostra (X,, ..., X,), sanomena estadístic tota variable que sigui 
funció de la mostra: 


Dei) 


n n 


Definició. S'anomena paràmetre qualsevol valor obtingut d'una població. 


tt Paràmetres 
Població 


Estadístics 
Mostra 


Els diversos paràmetres poblacionals generalment són desconeguts, ja que no te- 
nim disponibles les dades de tota la població. El valor dels estadístics sempre serà co- 
negut, ja que sempre tindrem disponibles les dades d'alguna mostra. Els paràmetres 
poblacionals tenen relacionats certs estadístics mostrals i els valors d'aquests estadístics 
ens permetran fer una inferència o estimació sobre quin és el valor del paràmetre po- 


blacional corresponent. 


POBLACIÓ — PARÀMETRES MOSTRA — ESTADÍSTICS 


(desconeguts) (coneguts) 


Mitjana poblacional, u 


Variància poblacional, 0" 


Desviació estàndard poblacional, O 


Proporció poblacional, p Proporció mostral, P 


Mediana poblacional, Me Mediana mostral, Me 


Percentil 35 poblacional, P. Pereentil dE inostel P, L 
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4.3 Estimació puntual i estimació pet intervals 


El procés d'estimació estadística es relaciona amb el conjunt de mètodes i procediments 
estadístics a partir dels quals, i de la informació donada per una mostra aleatòria ob- 
tinguda d'una determinada població, es pretén fer alguna afirmació en termes numèrics 
sobre el valor del paràmetre o paràmetres desconeguts que caracteritzen la població. 
Es tracta, en definitiva, de com usar de manera òptima la informació que ens dóna una 
mostra per poder assignar valors numèrics als paràmetres desconeguts d'una determi- 
nada població estadística. 

La funció de probabilitat o de densitat d'una v, a. X depèn d'alguns paràmetres, 
com ara l'esperança i la variància. Els vertaders valors d'aquests paràmetres sovint són 
desconeguts a la pràctica i han de ser estimats a partir d'una mostra de X, 

Definició. Sigui /(x,0) la funció de densitat de X on 8 és el paràmetre desconegut. 


S'anomena estimador de O una variable aleatòria funció de la mostra 
US Xa A) 


Donada una mostra aleatòria, sempre és possible obtenir determinats estadístics 
mostrals: mitjana, mediana, desviació estàndard..., i considerar-los com a estimadors 
potencials dels paràmetres poblacionals. 

Cal remarcar que l'obtenció d'estimadors pot fer-se mitjançant l'aplicació de dos 
criteris diferents: 

1. Estimació puntual: sanomena estimació puntual el procés d'estimació que as- 
signa a cada paràmetre cert valor estimat. Lestimació puntual té l'avantatge 
de deixar especificat unívocament el paràmetre que es pretén estimat, però té 
l'inconvenient que, si agafem dues mostres diferents, es podrien produir dife- 


rències importants entre els valors estimats. 


2. Estimació per intervals: consisteix a marcar un interval al qual, amb una certa 
probabilitat, pertanyi l'estimador escollit, de manera que lestimació del parà- 
metre poblacional serà donada per un conjunt de valors, qualsevol dels quals 


podria ser agafat com a expressió del paràmetre poblacional que es vol estimar. 


4.4 Noció d'interval de confiança. Coeficient de confiança 


Els mètodes d'estimació puntual presenten un gran inconvenient: no proporcionen in- 
formació sobre com és de gran l'error comès en l'estimació. Lerror només seria conegut 
amb precisió en el cas que el paràmetre fos conegut, però en aquest cas no seria neces- 


sari fer cap estimació. 
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Lestimació per interval sorgeix per solucionar aquest problema. Aquest procedi- 
ment es basa en el fet que un estimadot és una v. a. caracteritzada per: 


4, una distribució de probabilitat 
4 una esperança matemàtica 


: una variància 


Definició. Ara posarem les bases per donar la definició d'interval de confiança. Sigui 
X.,, .., X. una mostra aleatòria simple d'una v. a. X amb una distribució que depèn d'un 
1 n P q P 


paràmetre 8 (i possiblement d'altres paràmetres). Es diu que els estadístics: 
USA qu A) VeglA pesa.) 
constitueixen un interval de confiança per a 8, amb coeficient (o nivell) de confiança 
1 — A, o al 100(1 — 096, si es verifica: 
1. U 2 V per a tota mostra de grandària n. 


2. PÍ(UC8c V)- 1-—o. 


Definició. 1 — O. sanomena nivell de confiança. O. sanomena nivell d'error o de 
significació o de significança. 
Cal arribar a una mena d'equilibri entre els diversos aspectes (amplada, confiança, 


error, precisió, utilitat) que entren en joc quan es construeixen intervals de confiança. 


Exemple 

Suposem que volem fer una inferència sobre l'alçada mitjana de tots els habitants 
de Catalunya. Com que no es disposa de les alçades de tots els habitants de Catalunya 
(població), sagafa una mostra de la població, es mira la seva alçada i es construeix un 
interval de confiança per a l'alçada mitjana de tota la població. Podem veure què passa 


en dues situacions extremes: 


INTERVAL AMPLADA 1 CONFIANÇA 1 ERROR ( PRECISIÓ J UTILITAT 


(1.50, 2.00) Gran Gran Petit Poca Poca 
(1.7234, 1.7236) Petita Petita Gran Molta Molta 
Observacions 


1. Ui V són els límits de confiança de O. En general, són estimadors per defecte 


i per excés de B. 


2. Linterval depèn de la mostra. 
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3. El coeficient de confiança 1 — G és un valor que escull lexperimentador. S'acos- 
tuma a agafar O — 0.10, 0.05 o 0.01, és a dir, 1— O — 0.9, 0.95 o 0.99, Com 
més gran és 1 — O, més gran és el grau de confiança, però també serà més gran 
l'interval de confiança. Interessa obtenir un interval reduit, però amb una pro- 
babilitat relativament alta de contenir el valor del paràmetre. 

4. El valor de 8 és constant, mentre que l'interval de confiança I — (U,V) és dex- 
trems aleatoris, incloent-hi el vertader valor de G amb probabilitat 1 — a. 

5. Linterval de confiança s'ha d'interpretar segons una visió frequencial en el 
sentit seguent: si, per exemple, agafem 1 — CG — 0.95, en una llarga sèrie de 
determinació d'intervals de confiança, en el 9599 dels casos l'interval inclourà 
el vertader valor de 8. 


4.5 Determinació d'intervals de confiança 


A la taula d'intervals es donen les instruccions per calcular diferents intervals de con- 
fiança, segons les condicions amb les quals estem treballant i el paràmetre que volem 
estimar, 

Els passos que hauríem de seguir per construir un interval de confiança serien: 

1. Determinar de què es vol fer l'interval: 


a) una mitjana poblacional 

b) una diferència de mitjanes poblacionals 

c) una variància poblacional 

d) un quocient de variàncies poblacionals 

e) una proporció poblacional 

j) una diferència de proporcions poblacionals 


2. Determinar les condicions generals de lexercici per treballar amb l'interval 
adient. 
3. Consultar les taules estadístiques i determinar el valor corresponent que cal 


per trobar el marge derror de l'interval. 
4. Calcular el marge d'error de l'interval. 


5. Calcular els extrems inferior i superior de l'interval de confiança. 


Notació. La notació emprada a la taula d'intervals és la segúent: 


4n és el nombre d'elements de la mostra. Si té un subíndex, significa que hi ha 


més d'una mostra i amb el subíndex indiquem amb quina mostra treballem. 
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Xi 
x- ÉÍ oo és la mitjana de la mostra. El significat dels subíndexs és el mateix 


n 4 
que en el cas anterior. 


sl VV 2 
S(XeX) 
ges Hi és la variància de la mostra. El significat dels subíndexs és el 
n-l 
mateix que en el primer cas. Cal observar que, per calcular la variància mostral, 


s'ha de dividir entre n — 1 i no entre n (com fèiem en el tema d'estadística des- 


criptiva), ja que l'estimador S7 té millors propietats que si dividíssim entre n. 


P és la proporció en què apareix certa característica en una mostra. El signifi- 


cat dels subíndexs és el mateix que en el primer cas. 


Z,jp és el valor trobat a la taula N(0,1) que deixa a la seva dreta una àrea igual 


a Q/2. 


ja ÉS el valor trobat a la taula t de Student que deixa a la seva dreta una àrea 


igual a V/2. 


Xoua XL apa SÓN els valors trobats a la taula X" que deixa a la seva dreta una 
àrea iguala 0/2 i 1 — O/2, respectivament. 
Fu iF, aj 


una àrea igual a 1/2 i 1 — d/2, respectivament. 


, són els valors trobats a la taula F de Fisher que deixa a la seva dreta 


Observacions 


1. 


Dues mostres, tant si tenen la mateixa mida com si no, són independents quan 
sobserva una variable sobre individus diferents. Per exemple, es mesura el pes 
abans de fer un règim en 8 persones, i després de fer el règim es mesura el pes 


en altres 8 persones diferents. 


Dues mostres són dependents quan sobserva una variable sobre els mateixos 
individus. En aquest cas, les mides de les mostres seran iguals i té sentit cre- 
ar una nova mostra que sigui la diferència individu a individu de les mostres 
originals. En aquesta situació, per fer els càlculs es treballarà sobre aquesta 
nova mostra i no sobre les mostres originals: és a dit, es calcularà la mitjana 
i la desviació estàndard d'aquesta nova mostra. Per exemple, es mesura el pes 
abans de fer un règim en 8 persones i després de fer el règim es mesura el pes 
en les mateixes 8 persones anteriors. lambé es consideren mostres dependents 


quan, per exemple, es mesuren els temps assolits per dos atletes de 100 metres 
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llisos en 6 carreres diferents on han participat els dos atletes i on se suposa 
que les condicions (de vent, temperatura i altura sobre el nivell del mar) són 
les mateixes per als dos atletes, serien mostres independents si les condicions 


fossin diferents per als dos atletes. 


Mostra 1 Mostra 2 Mostra 1 — Mostra 2 
XI Xy Xip T Xy 
12 22 XX T Xa 
Xin, X, Xa — X, 


Exemple 1. Amb lobjectiu de verificar el pes mitjà de les caixes de cereals de certa 


marca, s'han agafat 16 d'aquestes caixes i s'han pesat. Els resultats són: 506, 508, 499, 503, 
504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509 i 496. Si suposem que el pes de les 


caixes segueix una V. a. normal amb variància desconeguda, busquem un interval de confi- 


ança del 9596 per al pes mitjà de les caixes de cereals. 


Solució 


E 


Es vol construir un interval per al pes mitjà de les caixes de cereals, per tant, d'una 
mitjana poblacional. 

Ens diuen que la distribució del pes de les caixes de cereals, la variable que es vol 
estudiar, segueix una normal i no es coneix la variància poblacional O". A més, la 


mostra és de 16 elements. Per això, agafarem el tercer interval de la taula. 


. Cal consultar les taules de la t de Student amb 15 graus de llibertat i mirar quin 


punt deixa a la seva dreta una àrea de 0/2 — 0.05/2 — 0.025. Aquest valor és t 
2.13: 


0.025 


S 
El marge derror de l'interval es calcula a partir de Í4/2 AR Sabent que $ — 6.2, 


n-16i t9os — 2.13, tenim que el marge derror de l'interval és 3.30. 


. Com que X s 503.75 i l'interval es construeix com a XI marge d'error, l'in- 


terval que obtenim és 500.45 a u € 507.05. Aquest resultat vol dir que, amb 
un 9596 de confiança, la mitjana real del pes de les caixes de cereals es troba en 


aquest interval. 


Exemple 2. Per comparar dos mètodes pedagògics diferents, s han fet uns tests a dos 


grups d'alumnes, cada grup dels quals ha après segons un mètode diferent. El primer grup 


és de 10 alumnes i el segon de 16 alumnes. Suposem que les puntuacions segueixen v, a. 


normals amb esperança i variància desconegudes i iguals. Els resultats van ser X, — 6.3, 
S6 534, X, - 5815, - 3.1. Volem un interval de confiança del 9096 per a la diferència 


d' 
esperances, 
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Solució 


ja 


4, 


3. 


Es vol construir un interval per a la diferència de puntuacions mitjanes obtingu- 
des segons cada mètode pedagògic, per tant, d'una diferència de mitjanes pobla- 


cionals. 


Ens diuen que la distribució de les puntuacions de cada mètode segueix unes 
distribucions normals, amb variàncies desconegudes però iguals a les dues pobla- 


cions, Per això, agafarem el sisè interval de la taula. 


Cal consultar les taules de la t de Student amb 10 -- 16 — 2 — 24 graus de lli- 


bertat i mirar quin punt deixa a la seva dreta una àrea de O / 2 — 0.1 / 2 — 0.05. 
Aquest valor és hos — 171. 


El marge derror de l'interval es calcula a partir de 


nn, nin, —2 


ba Card baerizaciies 


Amb les dades de l'enunciat tenim que el marge derror de l'interval és 1.24. 


Com que X, — 6.3i X, — 5.8 i l'interval es construeix com a X, — X, t marge 
d'error, l'interval que obtenim és —0.74 2 u, — u, € 1.74. Aquest resultat vol 
dit que, amb un 9096 de confiança, la diferència de les esperances de les puntu- 


acions segons els mètodes proposats està en aquest interval. 


4.5.1 Càlcul del nivell d'error associat a un marge d'error donat 


Ens podríem demanar amb quin nivell de confiança (o d'error) caldria treballar per 


aconseguir un determinat marge d'error, En aquest cas, caldria igualar la fórmula del 


marge derror corresponent al valor concret del marge d'error desitjat deixant com a in- 


cògnita el valor de taules estadístiques. A partir del valor de taules estadístiques es pot 


trobar el nivell de confiança o el derror. 


4.5.2 Càlcul de la mida d'una mostra 


Donat el nivell de confiança (o el d'error), ens podríem demanar quina ha de ser la mida 


de la mostra per aconseguir un cert marge d'error, En aquest cas, caldria igualar la fór- 
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mula del marge d'error corresponent al valor concret del marge d'error desitjat deixant 
com a incògnita la mida de la mostra. Aquesta variant es podria aplicar als intervals 1 
(interval sobre la mitjana poblacional amb variància poblacional coneguda), 2 (interval 
sobre la mitjana poblacional amb variància poblacional desconeguda i suposant que la 
mida de la mostra, tot i que no es coneix a priori, serà gran) i 10 (interval sobre la pro- 


porció poblacional). 


Observacions 
1. El cas de l'interval 1 realment serà difícilment aplicable, perquè, generalment, 


la variància poblacional serà desconeguda. 


2. Pet al cas de l'interval 2, si es demana la mida de la mostra, implica que encara 
no s ha agafat realment cap mostra, però en el càlcul de la mida de la mostra 
intervé la variabilitat de les dades (a través de la desviació estàndard d'una 
mostra). En aquest cas, per tenir una estimació de la variabilitat de les dades, 
caldria agafar una mostra prèvia i usar la variabilitat d'aquesta mostra prèvia 
per determinar la mida de la mostra definitiva. 

3. En el cas de l'interval 10 també caldria tenit una estimació prèvia de la propor- 
ció mostral que pot sortit de la mostra definitiva. De totes maneres, per curar- 
se en salut, es pot agafar com a proporció mostral P— 0.5 i llavors tindríem 


que: 


marge error 


2 
ds 02) 
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471 u 
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5. Contrastos d'hipòtesis 


El contrast d'hipòtesis es relaciona amb el conjunt de tècniques i mètodes estadístics 
que tenen com a objectiu la verificació de determinades afirmacions o suposicions fetes 
sobre algun o alguns paràmetres desconeguts que caracteritzen una població estadísti- 
ca. En aquest tema només tractarem els contrastos d'hipòtesis quan estem mostrejant 


poblacions normals o quan el nombre d'elements de les mostres sigui prou gran. 


Exemple. Suposem que tenim una moneda i fem l'afirmació que la moneda és cor- 
recta: la probabilitat d'obtenir cara és la mateixa que la dobtenit creu, per tant, aquesta 
probabilitat és 0.5. Com es pot comprovar aquesta afirmació2 Una manera seria fer un 
nombre elevat de llançaments i comptar quantes cares s'han obtingut. Segons el nom- 
bre de cares obtingudes decidirem si la moneda és correcta o, en canvi, està trucada. 

Per exemple, si llancem la moneda 200 vegades i ens surten 15 cares, sospitarem 
que la moneda està trucada: en canvi, si en aquests llançaments sobtenen 95 cares, po- 
drem afirmar que la moneda és correcta. 

El problema és determinar, amb un cert nivell derror, quin és el nombre de cares 
que fa de frontera entre una decisió i l'altra. Per tant, hem de trobar un interval, una 
zona, On, si el nombre de cares que hem obtingut està dintre de l'interval, acceptarem 
que la moneda és correcta. 

Suposem que, en llançar la moneda, el nombre de cares que surt no es troba dins 


de l'interval proposat. Aquest fet pot ser degut a dues causes: 


1. La moneda no és correcta i és lògic el resultat que hem obtingut. Haurem de 


rebutjar la hipòtesi que p — 0.5. 


2. La moneda és correcta, però el resultat obtingut és estrany. 


Entre aquestes dues alternatives sembla més raonable justificar el resultat per la 


primera causa. 
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Lexemple comentat conté alguns elements bàsics de la teoria del contrast d'hi- 
pòtesis: 
a) Especificació de les hipòtesis: p — 0.5 (la moneda és correcta) i p £ 0.5 (la 


moneda està trucada). 
b) Definició d'un nivell d'error, 
c) Construcció de zones d'acceptació (o de rebuig) de la hipòtesi proposada. 
d) Determinació d'un estadístic de prova: el nombre de cares que han sortit. 


e) Decisió final sobre la hipòtesi (acceptem o rebutgem la hipòtesi proposada). 


5,1 Hipòtesis estadístiques. Tipus d'hipòtesis 
P q P P 


Definició. Sigui una població estadística caracteritzada pel comportament d'una vari- 
able la distribució de la qual depèn d'un vector de paràmetres 8 desconegut. Definim 
l'espai paramètric com el conjunt de valors compatibles amb 8, és a dir, els possibles 
valors que pot prendre 8. El notarem amb el símbol Q. 

Exemples 

a) Si p és una proporció poblacional, llavors: 


Ociplospsi 
b) Si X-N(y,0), amb y i G desconeguts: 
O — f(uo)j-ocuso,o:50) 
c) Si X—N(y,6), amb O — O, conegut: 
Q — (uo) l—eeues) 
d) Si X-N(y,0), amb u — u, conegut: 
A - (y0)lots 0) 


Definició. Una hipòtesi estadística (o simplement hipòtesi) és una suposició que 
determina, parcialment o totalment, la distribució de probabilitat d'una v. a. Les hipò- 


tesis es poden classificar en dos grups: 


a) Les que especifiquen un valor concret o un interval per al vector de paràmetres 


del model. Per exemple, p — 0.5 ou € 4. 


b) Les que determinen el tipus de distribució de probabilitat que ha generat les 
dades. Per exemple, la distribució de la variables que sestà estudiant és normal. 


Encara que la metodologia per realitzar el contrast d'hipòtesis és semblant en els 


dos casos, distingir entre els dos tipus d'hipòtesis és important, perquè molts proble- 
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mes de contrast d'hipòtesis respecte d'un paràmetre són en realitat problemes d'estima- 
ció, que tenen una resposta més clara donant un interval de confiança per al paràmetre 
que es vol estimar. En canvi, les hipòtesis respecte a la forma de la distribució pertanyen 
a la fase de diagnòstic i validació del model i sestudien a banda. En aquest tema ens 


centrarem en les hipòtesis del primer grup. 


Definició. Anomenarem hipòtesi simple aquella que especifica un únic valor de 


lespai paramètric. En cas contrari, estem davant d'una hipòtesi composta. 


Definició. Anomenarem hipòtesi nul-la, H,, la hipòtesi que es contrasta. H, repre- 
senta la hipòtesi que mantindrem llevat que les dades n'indiquin la falsedat. Comple- 
mentàriament a H, es defineix la hipòtesi alternativa, H,. Quan rebutgem H, estem 
acceptant una hipòtesi alternativa: que H, és falsa. Un contrast implica lelecció entre 
dues hipòtesis: la H, que contrastem i una hipòtesi alternativa, H,, que està implícita 
en el rebuig de H,. 

La H, i H, no tenen un comportament simètric, és a dir, si tenim dues hipòtesis, 
no és indiferent quina sagafa com a H, i quina sagafa com a H,. Al final sacceptarà una 
hipòtesi o l'altra en funció de quina sigui més coherent amb les evidències de les proves 


(les dades de la mostra) que hi hagi. En general: 
4 — Si les proves demostren que és certa la H,, saccepta la H,. 
4 — Si les proves demostren que és certa la H,, saccepta la H,. 


4. — Si les proves són dubtoses, saccepta la Ho 


Per això, quan s'accepta la H, és que realment s ha demostrat que és certa, mentre 
que quan saccepta la H, realment el que pot haver passat és que no s'hagi demostrat 
que la H, sigui certa. Per aquest motiu, moltes vegades, en comptes de dir que saccepta 
la H, es diu que no hi ha prou evidències que la H, sigui certa. Per tant, per regla gene- 
ral, la hipòtesi que es vol demostrar és la que triarem com a H,. 

Quan es fa un contrast d'hipòtesis, sovint existeix més d'una hipòtesi alternativa 
respecte d'una hipòtesi simple nul-la H, és a dir, tenim una hipòtesi simple davant 


d'una hipòtesi alternativa composta. Ens podem trobar amb tres casos diferents: 


Cas 1 Cas 2 Cas 3 
(H, bilateral) (H, unilateral dreta) — (H, unilateral esquerra) 
AH 0-0, H30s80, EO zo, 
H,: 8 20, Els as O, Ms Ocn, 


Exemples 
a) El cas de comprovar si una moneda és correcta o està trucada es correspondria 


amb el cas 1, ja que la hipòtesi alternativa és bilateral: 
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Hip — 0.5 

Hip 20.5 
b) Si anem a un concessionari de cotxes i el venedor ens diu que el consum d'un 
determinat model de cotxe és de 3 litres cada 100 quilòmetres i no ens acabem de creu- 
re que aquest consum sigui el real, estarem en el cas 2, ja que el que nosaltres voldrem 
demostrar, H,, és que el consum mitjà del cotxe és superior a 3 litres cada 100 quilòme- 


tres (si és menor, no protestarem): 
Hi us 3 
H cus 3 
c) Si som d'una associació de consumidors i volem demostrar que lempresa que 
envasa l'aigua en ampolles de 50 cl ens estafa, estarem en el cas 3, ja que el que nosaltres 


voldrem demostrar, H, és que la quantitat mitjana d'aigua per ampolla és inferior a 50 


cl (si és superior, no ens estaran estafant): 
Hi u2 50 
H: use 50 


5.2 Concepte de zona crítica i zona d'acceptació 


Definició. Per fer més operativa la decisió que s'ha de prendre, es defineix un estadístic 
de prova com una funció dels elements mostrals que no depengui explícitament dels 
paràmetres poblacionals desconeguts. En l'exemple de la moneda, l'estadístic de prova 
era el nombre de cares que surten en 200 llançaments. Prenent com a referència aquest 
estadístic de prova i a partit d'un punt crític c, es determinaran les zones crítica i d'ac- 


ceptació de cada hipòtesi. 


Definició: si l'estadístic de prova pren un valor que està dintre d'un rang de valors 
"coherents" amb la hipòtesi nul-la, acceptarem aquesta hipòtesi. Aquest rang de valors 
l'anomenarem zona d'acceptació A. La zona crítica, o zona de rebuig, serà la zona 
complementària a la zona d'acceptació. Per tant, qualsevol mostra estarà en una zona o 
una altra. 

La regla de decisió per decidir entre H, i H, serà la segúent: 

a) si es presenta el succés festadístic de prova € At o fmostra € At, saccepta H,. 


b) si es presenta el succés festadístic de prova É AJ o (mostra É A), s'accepta H,. 
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5.3 Tipus d'errors. Nivell de significació 


Contrastar una hipòtesi suposa que hem de prendre una decisió en la qual hem d'accep- 
tar o rebutjar H,. Si saccepta la hipòtesi nul-la sestà rebutjant la hipòtesi alternativa: si 
es rebutja la hipòtesi nul-la sestà acceptant la hipòtesi alternativa. Per tant, en el con- 


trast d'hipòtesis es poden cometre dos tipus d'errors: 


Decisió 
Zona acceptació, H, Zona crítica, H, 
Es h No hi ha error Error de tipus I 
Hipòtesi certa 
El Error de tipus II No hi ha error 


Definició. Definim: 
Error de tipus I: rebutjar la hipòtesi nul-la quan és certa. 
Error de tipus II: acceptar la hipòtesi nulla quan és falsa. 


També sanomenen errors de la i 2a espècie, respectivament. 


Definició. La probabilitat de cometre un error de tipus Í es coneix amb el nom de 
nivell de significació C. del contrast. C. es fixa, normalment, en 0.1, 0.05 o 0.01, depe- 
nent de la importància de la hipòtesi en joc. Denotarem mitjançant B la probabilitat de 


fer un error de tipus II: 


GO — Plertor de tipus I) — P(rebutjar H, sent certa) 


B — P(error de tipus II) — P(acceptar H, sent falsa) 


Els valors Ci B mantenen entre si una relació inversa: per a una determinada mida 
mostral, si O el fem més petit, B serà més gran i a l'inrevés. L'única manera de disminuir 


ambdós a la vegada és augmentant la mida de la mostra. 


Definició. Es defineix la potència del contrast, 1 — B, com la probabilitat de rebut- 
jar H, sent falsa. Per determinar les zones d'acceptació de cada hipòtesi, fixat un nivell 
de significació O, s'intentarà que tingui la màxima potència, ja que llavors l'error de 
tipus II serà el més petit possible. 

El procediment de selecció d'una zona crítica mitjançant el nivell de significació 
té dues crítiques principals: 

1. El resultat del test pot dependre molt del valor de G, que és arbitrari, sent pos- 

sible rebutjar H, amb O — 0.05 i acceptar-la amb O — 0.04. 


2. Donar només el resultat del test no permet diferenciar el grau d'evidència que 


la mostra indica a favor o en contra de H è 
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Definició. Per contrarestar aquestes crítiques, definirem de manera simple el nivell 
crític CL, o p-valor com, donada una mostra, la probabilitat que sigui certa la H,. 
Anomenant EP el valor observat de l'estadístic de prova i suposant que la H, sigui 


unilateral dreta, tenim que: 
a. € P(H,s EP) 


Si H, és unilateral esquerra, obtenim que: 6, — P(H, s EP). 
Si H, és bilateral i la distribució de l'estadístic de prova quan H, és certa és simè- 
trica respecte del zero, aleshores Cd, — P(IH,J 2 EP). 


Esquemàticament tindrem: 


H, bilateral H, unilateral dreta H, unilateral esquerra 


0/2 /2 Oe Ce 


JEP) 0 (EPI EP EP 


Per tant, el valor de O, no es fixa a priori, com passava amb el nivell de significació 
O, sinó que es determina a partir de la mostra. Donada la interpretació del nivell crític 
O, com, donada una mostra, la probabilitat que sigui certa la H,, és lògic pensar que, 
com més petit sigui el valor de O,, menys possibilitats hi ha que sigui certa la H, i, al 
contrari, més n'hi haurà que sigui certa la H,. Basant-nos en O, la regla per decidir entre 
H, i H, serà la segient: 

e Si O, € O, acceptarem H,. 

e Si O, X CO, acceptarem H, 

El valor de OC amb què es vol treballar el decideix lexperimentador. Normalment, 
els programes informàtics d'estadística ens donen el p-valor O,. Com a regla orientativa 
es pot dit que: 

4, Si, € 0.01, la H, sacceptarà amb una seguretat molt alta. 

4 Si 0.01 € Q, € O.1, la hipòtesi que sacceptarà dependrà del valor concret de CL 


amb què es vol treballar, però hi ha força evidències que la H, és certa. 


4. Si 0.1 8 O, € 0.25, la hipòtesi que sacceptarà generalment serà la H,, però hi 
haurà molts dubtes que sigui realment certa. Tampoc no hi ha gaires evidènci- 


es que la certa sigui la H n 


4 Si 0.25 € O, la H, s'acceptarà amb una seguretat alta i que serà més forta com 
més alt sigui OL,. 
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5.4 Aplicació dels contrastos d'hipòtesis a diferents paràmetres i condicions 


A la taula de contrastos es donen les instruccions per fer diversos contrastos d'hipò- 
tesis, segons les condicions amb les quals estem treballant i el paràmetre sobre el qual 
volem fer el contrast. 

A la columna de lesquerra hi ha les condicions en les quals es pot aplicar cada 
contrast, A la segona columna hi trobem la hipòtesi nul-la que volem contrastar, A la 
columna central tenim l'estadístic de prova que hem de calcular en cada cas i la dis- 
tribució que segueix. En les dues últimes columnes s'hi troben la hipòtesi alternativa 
(sempre n'hi ha 3 per a cada H,) i el criteri que ha de complir l'estadístic de prova per 
acceptar la H, (el criteri és diferent per a cada H,). 

Sempre hem de tenir present quin és el paràmetre sobre el qual volem fer contras- 
tos i les condicions amb les quals estem treballant per usar l'estadístic adient. 

Els passos que hauríem de seguir per fer un contrast d'hipòtesis serien: 


1. Determinar sobre què es vol fer el contrast (depèn de l'enunciat): 
a) una mitjana poblacional 
b) una comparació de mitjanes poblacionals 
c) una variància poblacional 
d) una comparació de variàncies poblacionals 
e) una proporció poblacional 
j) una comparació de proporcions poblacionals 


2. Determinar les condicions generals de lexercici per treballar amb l'estadístic 
de prova adient. 

3. Determinar la hipòtesi nul-la, H,. 

4. Determinar la hipòtesi alternativa, H,. 

5. Determinar la zona de les taules estadístiques on saccepta la H,. 

6. Determinar la zona de les taules estadístiques on saccepta la H,. Serà la zona 
complementària a la trobada al pas 5). 

7. Determinar la zona de l'estadístic mostral on saccepta la H,. Entenem per es- 
tadístic mostral l'estadístic que resulta de fer un càlcul directe sobre la mostra i 
que està associat al paràmetre sobre el qual es vol fer el contrast. Per determi- 
nar aquesta zona cal igualat, a la fórmula de l'estadístic de prova, l'EP als valors 
trobats en el pas 5) deixant com a incògnita l'estadístic mostral corresponent. 
Els estadístics mostrals són: 

a) la mitjana mostral si estem fent un contrast sobre una mitjana poblacional, 
b) la diferència de mitjanes mostral si estem fent un contrast sobre una dife- 


rència de mitjanes poblacionals, 
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c) la variància mostral si estem fent un contrast sobre una variància pobla- 


cional, 


d) el quocient de variàncies mostrals si estem fent un contrast sobre una com- 


paració de variàncies poblacionals, 


e) la proporció mostral si estem fent un contrast sobre una proporció pobla- 


cional, 


f) la diferència de proporcions mostrals si estem fent un contrast sobre una 


comparació de proporcions poblacionals. 


8. Determinar la zona de l'estadístic mostral on saccepta la H p Serà la zona com- 


plementària a la trobada al pas 7). 

9. Calcular l'estadístic de prova, EP. 

10. Segons els valors de l'EP i l'estadístic mostral i les zones d'acceptació de cada 
hipòtesi, decidir quina és la hipòtesi certa. 

11. Calcular el valor del nivell de significació crític o p-valor CL. 


12. Segons els valors de Qi de G, decidir quina és la hipòtesi certa. 


Notació. La notació emprada a la taula dels contrastos és la segient: 
n és el nombre d'elements de la mostra. Si té un subíndex, significa que hi ha més 
d'una mostra i amb el subíndex indiquem amb quina mostra treballem. 
y Xi 
x- HO ésla mitjana de la mostra. El significat dels subíndexs és el mateix 


n 
que en el cas anterior. 
: VV pe 
(XX) 
eo ge Hi és la variància de la mostra. El significat dels subíndexs és el 
OO on-l La 
mateix que en el primer cas. Cal observar que per calcular la variància mostral 


s'ha de dividir entre n — 1 i no entre n (com fèiem al tema d'estadística descrip- 


tiva), ja que l'estimador S7 té millors propietats que si dividíssim entre n. 


P és la proporció en què apareix certa característica en una mostra. El signifi- 


cat dels subíndexs és el mateix que en el primer cas. 


o Zajp i Z, SÓN els valors trobats a la taula N(0,1), que deixen a la seva dreta una 


àrea igual 20 / 2i0, respectivament. 


"ofi t, són els valors trobats a la taula t de Student que deixen a la seva dreta 


una àrea igual a Q/2 i O, respectivament, 
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ia Laia Xa LXÓ a 8ÓN els valors trobats a la taula X" que deixen a la seva 


dreta una àrea iguala O / 2,1— o / 2, di 1 — O, respectivament. 


FE Fo 
seva dreta una àrea igual a G/2, 1 — a / 2, di 1 — a, respectivament. 


F, iF, , són els valors trobats a la taula F de Fisher que deixen a la 


Exemple 1. Amb lobjectiu de verificar el consum d'un cotxe s han agafat 16 mesures 
del consum d'aquest cotxe en trajectes de 100 hm. Els resultats són: 5.06, 5.08, 4.99, 5.03, 
5.04, 5.10, 4.97, 5.12, 5.14, 5.05, 4.93, 4.96, 5.06, 5.02, 5.09 i 4.96. Si suposem que el 


consum del cotxe segueix una v. a. normal amb variància desconeguda, sexisteix alguna 


raó per creure, amb CL — 0.05, que el consum mitjà del cotxe és superior a 5 litres cada 100 


quilòmetres2 


Solució 


1. 


sl 


Es vol fer un contrast sobre el consum mitjà, per tant, sobre una mitjana pobla- 
cional. 


. Ens diuen que la distribució del consum del cotxe, la variable que es vol estudiar, 


segueix una normal i no es coneix la variància poblacional O". A més, la mostra és 


de 16 elements. Per això, agafarem el tercer estadístic de la taula. 


. Hius5. 
L Hip 5. 


. S'ha de consultar la taula t de Student amb 16 — 1 — 15 graus de llibertat. La H A 


és unilateral dreta i el valor de GC. és 0.05. Per tant, el punt tos és 1.75. En defini- 


tiva, la zona de les taules estadístiques on saccepta la H, és (—0, 1.75). 


. La zona de les taules estadístiques on saccepta la H, és la complementària a la 


trobada al pas 5), per tant, (1.75 , 0). 


 Enimllbe £ es l'igualem a 1.75 deixant x com a incògnita, és a dir, reso- 


i S/yn 
X—S La, 
lem 0062//16 1.75 i obtenim x - 5.03. En definitiva, la zona de la mitjana 


mostral on saccepta la H, és (—2, 5.03). 


. La zona de la mitjana mostral on saccepta la H , és la complementària a la troba- 


da al pas 7), per tant, (5.03 , 0). 
Els resultats mostrals són x — 5.0375, n — 16, S — 0.062 i, per tant, EP — 2.42. 


10. Com que la mitjana de la mostra és x — 5.0375 i aquest valor es troba a la zona 


de la mitjana mostral on saccepta la H p acceptem aquesta H,, amb un d — 0.05, 
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és a dir, el consum d'aquest cotxe és superior a 5 litres cada 100 lm. Arribem a 
la mateixa conclusió si comprovem que EP — 2.42 es troba a la zona de les taules 


estadístiques on saccepta la H h 


11. Com que la H, és unilateral dreta i estem treballant amb el tercer estadístic de la 


taula i EP — 2.42, cal buscar l'àrea que hi ha a la dreta de l'EP a les taules de la t 
de Student amb 15 graus de llibertat. Interpolant, el resultat és a, — 0.0143. 


12. Si volem treballar amb O — 0.05 i com O, — 0.0143 s a — 0.05, saccepta H,, és a 


dir, el consum d'aquest cotxe és superior a 5 litres cada 100 hm. 


Exemple 2. Per comparar dos mètodes pedagògics diferents, s han fet uns tests a dos 


grups d'alumnes, cada grup ha après segons un mètode diferent. El primer grup és de 10 


alumnes i el segon de 16 alumnes. Suposem que les puntuacions segueixen v, a. normals 


amb esperança i variància desconegudes i iguals. Els resultats van ser x, — 6.3, S/ — 3.4, 


ds Ri S/ — 3.1. Es tracta de verificar, amb Cd. — 0.1, la suposició que les variàncies 


poblacionals són iguals. 


Solució 


1. 
2, 


Es vol fer un contrast sobre una comparació de variàncies poblacionals. 


Ens diuen que la distribució de les puntuacions amb un mètode i l'altre segueixen 
una normal i les mostres s'han agafat de manera independent. Usarem el novè 


estadístic de la taula. 


A 2 2 
3. Hg: O, — OG,. 


3 2 2 
I H,: O, 20, 


. S'ha de consultar la taula F de Fisher amb 9 i 15 graus de llibertat. La H, és bila- 


teral i el valor de Gi és O,1. Per tant, O. / 2 — 0,05 i el punt He és 
és 1 / 3.01 — 0.33. En definitiva, la zona de les taules estadístiques on saccepta 
la H, és (0.33, 2.59). 


és 2.59 i el punt F, 


. La zona de les taules estadístiques on saccepta la H, és la complementària a la 


trobada al pas 5), per tant, serà (O, 0.33) U (2.59, 0). 


. En aquest cas, lestadístic mostral (quocient de variàncies mostrals) coincideix 


amb la definició de l'EP i, per tant, la zona del quocient de variàncies mostrals on 


saccepta la H, també és (0.33, 2.59). 


. La zona del quocient de variàncies mostrals on saccepta la H, és la complemen- 


tària a la trobada al pas 7), per tant, (O, 0.33) U (2.59 , 0). 


. Els resultats mostrals són S/ — 3.4i S/ — 3.1 i, per tant, EP — 1.1. 
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10. Com que EP — 1.1 es troba a la zona de les taules on saccepta la H,, acceptem 
aquesta H, amb un C. — 0.1, és a dir, les variàncies poblacionals podem assumir 


que són iguals (no hi ha evidències significatives que siguin diferents). 


11. Com que la H , és bilateral i estem treballant amb el novè estadístic de la taula i 
EP - 1.1, cal buscar làrea que hi ha a la dreta de l'EP a les taules de la F de Fisher 
amb 9 i 15 graus de llibertat i multiplicar aquesta àrea per 2. El resultat és gas 


0.8358, 


12. Si volem treballar amb O — 0.1 i com que O, — 0.8358 X G — 0.1, saccepta H,, és 


a dit, les variàncies poblacionals podem assumir que són iguals. 
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6. Anàlisi de la variància (ANOVA) 


6.1 Generalitats sobre l'anàlisi de la variància 


Davant un fenomen de naturalesa aleatòria, els possibles resultats poden estar influ- 


its per una sèrie de condicionaments, externs i/o interns, els quals no sempre podem 


controlar, Lobjecte de l'anàlisi de la variància se centra en la mesura de la influència 


d'aquests condicionaments en una variable resposta o observada. Anem a introduir una 


sèrie de conceptes per tenir el marc teòric on es desenvoluparà l'ANOVA: 


a) Variable resposta o observada: variable que es vol estudiar si està influenciada 


D) 


c) 


per d'altres. La variable resposta serà una variable numèrica i fa el paper de va- 
riable dependent en la funció que relaciona el factor i la variable resposta. Per 
exemple, el nombre d'avellanes produides per avellaner pot ser una variable 


resposta. 


Factor: condicionament que afecta el resultat d'un fenomen. Serà la qualitat o 
propietat a partir de la qual classifiquem les observacions. El factor serà una 
variable qualitativa o numèrica categoritzada en un nombre concret de valors 
i fa el paper de variable independent en la funció que relaciona el factor i la 
variable resposta. Per exemple, el nombre d'avellanes produides per avellaner 
pot dependre del sòl, en aquest cas el factor que observem és el sòl. 

Nivell: cada una de les maneres en què es pot presentar un factor, Seguint 
amb l'exemple anterior, els diferents nivells del factor sòl podrien ser: calcari, 


sorrenc i argilós. 


d) Efecte assignable: consequències dels factors considerats. En la producció d'ave- 


llanes seria la quantitat d'avellanes que correspondria al tipus de sòl on està 


situat cada avellaner. 
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e) Efecte no assignable, residual o aleatori: consequències que no provenen dels fac- 
tors considerats. Per exemple, no s han considerat els efectes del tipus d'adob, 


del tipus de reg o de la quantitat de pluja caiguda el mes de maig. 


Per tant, cada observació la podem descompondre en una part deguda als efectes 
assignables i una altra deguda a l'atzar. Per fer l'anàlisi de la variància hem de suposar 
que les observacions de cada nivell del factor que volem analitzar provenen de variables 
aleatòries que es distribueixen normalment amb la mateixa variància, encara que s'ha 
vist que, si no es compleixen aquestes condicions, els resultats de l'anàlisi de la variància 


segueixen sent vàlids si les mides de les mostres de cada nivell són semblants. 


6.2 Disseny ANOVA d'un factor 


Primer estudiarem el cas en què només considerem un factor per explicar els resultats 
d'una sèrie d'observacions. Lobjectiu serà trobar si existeixen diferències entre els dife- 
rents nivells considerats del factor o no existeixen. Lobjectiu és semblant al que plante- 
jàvem quan vam estudiar si hi havia diferències entre dues poblacions, però ara podem 
treballar amb més de dues poblacions o nivells, cosa que no podíem fer abans. Les dades 


les podem posar de la manera seguent: 


Població o nivell 
1 2 Ga R 
Xi3 X)3 he X 
XIn, X2ns, a Xiny 


Amb aquestes dades podem calcular una sèrie d'estadístics: 


ni 


Su 


ss o (mitjana mostral a la població o nivell i) 


Xio 
ni 
L3 
ns NY ni (nombre total d'observacions) 
Fi 
È ni 
Xj 
qe Hi OO (mitjana mostral general) 
n 
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Els passos que s han de seguir per fer una anàlisi de la variància d'un factor serien: 


1. 


6. 


Hi 


Determinar quin és el factor que es vol considerar, quins nivells s'han agafat 
d'aquest factor i quina és la variable resposta o variable observada que es vol 


estudiar. 


Comprovar que les observacions de cada nivell del factor es distribueixen nor- 


malment i que hi ha la mateixa variància en els diversos nivells. 


Determinar la hipòtesi nul-la, H 9: La H, sempre serà la mateixa: 


Hg HQ See S HU, 
Això vol dir que, sota H,, no existeixen diferències entre les diferents pobla- 
cions o entre els diferents nivells del factor considerat. També significa que el 


factor considerat no té influència sobre el resultat de la variable resposta. 
Determinar la hipòtesi alternativa, H,. La H, sempre serà la mateixa: 
Hi: y, 8, per a alguna parella i x j 


H, significa que hi ha diferències entre, almenys, dues poblacions o nivells. 
També significa que el factor considerat té influència sobre el resultat de la 


variable resposta. 


Determinar la zona de les taules on saccepta la H,. La taula que s'ha de con- 
sultar és la F de Fisher amb R—1 i n—R graus de llibertat. Per a un nivell de 
significació Q, si F, és tal que P(F 5 F,) — O (és a dir, el punt de la taula F de 
Fisher que deixa a la seva dreta una àrea igual a O1), la zona de les taules on 
saccepta la H, és l'interval ( 0, F, ). 

Determinar la zona de les taules on saccepta la H,. Serà la zona complemen- 
tària a la trobada al pas 5), és a dir, serà l'interval ( F,, o Ni 


Calcular l'estadístic de prova, que, en aquest cas, anomenarem F. 


Els passos que s'han de seguir per calculat F els podem resumir a la taula seguent: 


Font de variació el Suma quadrats Quadrats mitjans F 
Entre grups R-1 OS D ntx- xy ne is Q, 
grup I os Le 
OO Rel Q, 
Ll Mer 
Dintre grups n—h Qu- b) rar) O,- Q, 
3 tea 
n Na 
Total n—l De b) (px) 
Lj 
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Per facilitar els càlculs, les sumes de quadrats es poden calcular amb fórmules 


algebraicament idèntiques: 


O,- y (apPx)ys Siuonx" 
B) 


Lj 


QS níx xy S Sun ns" 
7 7 


Ds -D. 


8. Segons els valors de l'estadístic de prova F i les zones d'acceptació de cada hi- 
pòtesi, decidir quina és la hipòtesi certa. 

9. Calcular el valor del nivell de significació crític o p-valor O.. El p-valor es troba 
calculant la probabilitat que una distribució F de Fisher amb R—1 i n—R graus de 

po FE) a. 


llibertat sigui més gran que l'estadístic de prova F, és a dir, P(F, ,, 


10. Segons els valors de ai de G, decidir quina és la hipòtesi certa. 


Observació 
En el cas que s'accepti que hi ha diferències entre almenys dos nivells o poblacions, 
ens pot interessar fer algun contrast parcial per comprovar entre quins nivells o poblaci- 


ons hi ha diferències amb un nivell de significació Ct. Les hipòtesis per contrastar serien: 
(i) — 
EM SH 
(i), 
H ue H 


Aleshores, s'utilitza l'estadístic: 


O, (1 1 


n—Rln, n, 


Per contrastar la significativitat d'aquest estadístic s ha de consultar la taula de la 
distribució t de Student amb (n—R) graus de llibertat i mirar quin punt deixa a la seva 


dreta una àrea de d/2. 


Exemple 

La gent que es preocupa per la seva salut prefereix hamburgueses que tenen po- 
ques calories. Les hamburgueses es poden classificar segons la seva composició: vedella, 
pollastre i carn (sobretot de carn de porc i vedella, però fins a un 1596 de carn de po- 
llastre). S'han agafat hamburgueses de 54 marques diferents, s'han classificat segons la 


seva composició i s han mesurat les calories que contenen. Els resultats obtinguts són: 
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Sea 186 — 181. — 176 — 149 — 184 — 190 158 — 139 175 — 148 
COCA 1452 111 141 153 — 190 157 131 149 135 132 
129 — 132102 — 10694 102. 87/99 — 107 113 
Pollastre 
135 — 14286 — 143 152 — 146 144 
È 173 — 191 — 182190 172 147 146 139 0175 136 
du 179 — 153 — 107 — 195 — 135 140 138 


Suposant que les calories de cada grup d'hamburgueses es distribueixen normal- 


ment i que hi ha la mateixa variància en els diversos nivells, es vol analitzar si hi ha 


diferències significatives, amb C. — 0.05, entre les calories dels diversos grups d'ham- 


burgueses. 


Solució 


1. 


El factor que es vol considerar és la composició de les hamburgueses. D'aquest 
factor es consideren 3 nivells: vedella, pollastre i carn. La variable observada 
que es vol estudiat són les calories. 

Hem suposat que es compleixen les condicions per aplicar ANOVA d'un fac- 
tor: les observacions de cada nivell del factor es distribueixen normalment i hi 


ha la mateixa variància en els diversos nivells. 


. La HL és: 


EH 


0 EH, edella — Policia z He 


Això vol dir que, sota H, no existeixen diferències entre les calories mitjanes 


de les hamburgueses segons els diversos nivells considerats de composició. 
La H, és: 
Hi: u, 8 p, per a alguna parella i € j 


H, significa que hi ha diferències entre les calories mitjanes de les hamburgue- 


ses d'almenys dos grups considerats de composició. 


. S'ha de consultar la taula F de Fisher amb (2,51) graus de llibertat. A la taula 


anterior hem de trobar el punt que deixa a la seva dreta una àrea de O — 0.05. 
Aquest punt és F, — 3.18. Per tant, la zona de les taules on saccepta la H, és 


l'interval (O, 3.18). 


La zona de les taules on s'accepta la H, és l'interval (3.18, co). 


7. Calculem l'estadístic de prova, F. 
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Font de variació eL Suma quadrats Quadrats mitjans F 

Entre grups 2 17692.1951 8846.10 16.1 

Dintre grups 51 28067.1382 550.33 

Total 53 45759.3333 

8. Com que lestadístic de prova F — 16.1 es troba a l'interval on saccepta H, 


Ds 


direm que acceptem H, i que, per tant, les calories mitjanes de les hamburgue- 
ses no són les mateixes en els diversos grups de composició d'hamburgueses 


considerats. 


El valor del nivell de significació crític o p-valor, OL, és 3.86 - 106, 


10. Com que el p-valor, a, — 3.86 - 10/$, és més petit que el nivell d'error amb el 


qual volem treballar, O — 0.05, acceptem H, i arribem a la mateixa conclusió 


que abans. 


11. Com que s'ha acceptat que hi ha diferències entre les calories mitjanes entre 


almenys dos grups d'hamburgueses, anem a contrastat, amb Q — 0.05, si hi ha 
diferències entre les calories mitjanes de les hamburgueses de vedella i les de 


pollastre. El contrast que s'ha de realitzar és: 


El i Patis - Hoctiaare 
HA Pocdetia a Hootisire 

Com que G / 2 — 0.025, busquem el punt de la taula t de Student, amb 51 
graus de llibertat, que deixa a la seva dreta una àrea de 0.025. Aquest punt és 
2.01 ja que P(t,, 2 2.01) — 0.025. Per tant, les zones de la taula t de Student 


on saccepta la hipòtesi nul-la i la hipòtesi alternativa són: 
4, Zona on saccepta H,: (—2.01, 2.01). 
4, Zona on saccepta H,: (—0, —2.01) U (2.01, 20). 


Tenim que: 


XS 156.85 xo, FS 118.76 
vedella pollastre 
Aleshores, s'utilitza l'estadístic: 
t- I X vedella 7 X pollastre sl l 156.85 7 1 18.76 4.92 
efi, IES EE h ) 
i n— L3 Nyedella N pollastre i 54 i 3 20 17 
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Com que el valor de l'estadístic t és 4.92, aquest valor es troba dins de la zona on 
saccepta la H, i podem afirmar que hi ha diferències significatives entre les calo- 


ries mitjanes de les hamburgueses de vedella i les hamburgueses de pollastre. 


També sarriba a aquesta conclusió si calculem el p-valor de l'estadístic t: a, 
2. P(t,, 9 (4.921) — 2. 4.6973.10/€ — 9.3946 . 10. Com que el p-valor, a, 
9.3946 . 105, és més petit que el nivell d'error amb el qual volem treballar, O — 


0.05, acceptem H di 


12. lambé podem estar interessats a contrastar, amb OC. — 0.05, si hi ha diferències 
entre les calories mitjanes de les hamburgueses de pollastre i les de carn. El 


contrast que s'ha de realitzar és: 


(23), — 
El É P ocitasite Le Hg 
HO. 


1 H pollastre Es s carn 


Les zones de la taula t de Student on s'accepta la hipòtesi nul-la i la hipòtesi 
alternativa seran les mateixes d'abans: 


4, Zona on saccepta H,: (—2.01, 2.01). 
4, Zona on saccepta H,: (—0, —2.01) U (2.01, 2). 


Tenim que: 


— 118.76 x,, FS 15871 


A pollastre 


Aleshores, s'utilitza l'estadístic: 


X pollastre — X carn 118.76 - 158.71 La, ed 96 


O, Lo, a, L) 
Met di 54-3 7 17 


n pollastre carn 


(- 


Com que el valor de l'estadístic t és —4.96, aquest valor es troba dins de la zona 
on saccepta la H, i podem afirmar que hi ha diferències significatives entre les calories 
mitjanes de les hamburgueses de pollastre i les hamburgueses de carn. 

També sarriba a aquesta conclusió si calculem el p-valor de lestadístic t: O, — 
2. Plt,, 2 1-4.96)) — 2. 4.0541 . 105 — 8,1082 . 1075, Com que el p-valor, a, — 
8.1082.10/, és més petit que el nivell d'error amb el qual volem treballar, Cd. — 0.05, 


acceptem H.. 
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13. Per finalitzar, anem a contrastar, amb GC. — 0.05, si hi ha diferències entre les 
calories mitjanes de les hamburgueses de vedella i les de carn. El contrast que 


s'ha de realitzar és: 


HP 


0 Pcdeia FE Higi 


(13), 
E, dl Hedels f Hores 


Les zones de la taula t de Student on s'accepta la hipòtesi nul-la i la hipòtesi 


alternativa continuen sent les mateixes d'abans: 
4, Zona on saccepta H,: (—2.01, 2.01). 
4 Zona on saccepta Hi: (—0, —2.01) U (2.01, 20). 
Tenim que: 
X 


— 156.85 x,,, SE 15871 


vedella 


Aleshores, s'utilitza l'estadístic: 


de X vedella — X carn Ll 156.85 - 158.71 — 0.24 


Qu Lo le LE) 
Vr—Eln n VO 54—3 20 17 


vedella carn 


Com que el valor de l'estadístic t és —0.24, aquest valor es troba dins de la zona on 
saccepta la H, i hem de concloure que no s'ha demostrat que hi hagi diferències signi- 
ficatives entre les calories mitjanes de les hamburgueses de vedella i les hamburgueses 
de carn. 

També sarriba a aquesta conclusió si calculem el p-valor de l'estadístic t: O, — 2 - 
Plt,, x (—0.24/) — 2. 0.4057 — 0.8114. Com que el p—valor, O, — 0.8114, és més gran 


que el nivell d'error amb el qual volem treballar, O — 0.05, acceptem H,. 


6.2 Excel: ANOVA d'un factor 


El programa Excel permet fer de manera automàtica els càlculs que calen per realitzar 
un ANOVA d'un factor. 

Prèviament hem de tenir instal-lat el mòdul de Anàlisis de datos". Per installar 
aquest mòdul cal seguir els passos segúents: 


1. Del menú "Herramientas, triem "Complementos'. 
2. Marquem la casella "Hertamientas para anàlisis" i acceptem. 


3. Comprovem que al final del menú "Hertamientas" apareix Anàlisis de datos". 
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Per fer una ANOVA d'un factor amb Excel cal seguir els passos segúents: 

1. Per començar a fer qualsevol tipus d'anàlisi, primer hem de tenir les dades en- 
trades en el full de càlcul. Si seguim amb l'exemple de les hamburgueses, hem 
de posar les dades de cada nivell (vedella, pollastre i carn) en columnes (o filles) 
diferents, en començar la columna (o la fila) podem posar un rètol que indiqui a 
quin nivell corresponen les dades que hi ha en cada columna (o fila). La pantalla 


1 ens mostra com han de quedar les dades una vegada introduides a Excel. 


Pantalla 1. Dades d'un factor introduides a Excel 


EJETS E esse 
d Vedella Pollastre — Cam 

EE) 166 129 173 
ESA 181 132 181 
4 1/6 102 1EZ 
El 149 106 10 
Gi 184 94 172 
dd 10 102 147 
68) 18 8r 146 
9) 10 99 UE) 
1a 175 107 16 
11 148 113 If 
6 Pl 182 135 179 
13) 111 142 153 
14 141 86 107 
15) 153 143 155 
16 10 152 UE) 
14) 157 146 140 
18 131 144 A 
19 148 

En) 125 

21) tal I 


2. Del menú "Herramientas, triem "Anàlisis de datos. 


3. De les funcions que apareixen, triem "Anàlisis de varianza de un factor" i ac- 


ceptem. Ha d'aparèixer el quadre que es veu a la pantalla 2. 


Pantalla 2. Quadre de "Anàlisis de varianza de un factor" 


Anàlisis de varianza de un factor EE: z 2jxj 
rEntrada 
Rango de ertrada Í si Leege J 
CarcEl 
Agrupado per: dunes Cares 
C Filas Avuda 
( Rótulcs en la primera Fia 
AFa: foas 
rOpdones de saida 


( Rango de sdida: I si 
é8 EnLma hoja rueva: 


C Enunibra neva 
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4. Del quadre anterior, hem demplenar: 


a) 


0) 


d) 
e) 


Rango de entrada. Hem de seleccionar les caselles on es troben les dades 


que volem analitzar. 


Agrupado por. Hem de triar "Columnas' o "Filas" depenent de com hàgim 
entrat les dades de cada nivell (en el nostre exemple, hem de marcar "Colum- 
nas"). 

Rótulos. Hem de marcar aquesta casella si a" Rango de entrada" hem selec- 
cionat les cel-les on hi ha els rètols descriptius del nivell a què corresponen 
les dades de cada columna. Si no s'han posat aquests rètols descriptius o 
no s'han inclòs aquestes cel-les a "Rango de entrada, no hem de marcar la 


casella "Rótulos'. 
Alfa. S'ha de posar el nivell derror amb què volem treballar. 


Opciones de salida. Aquí triem on volem els resultats. Deixem marcada 


lopció "En una hoja nueva. 


El resultat apareix en una fulla nova. Hi ha dos quadres: quadre "Resumen" i 


quadre "Anàlisis de varianza'. 


Quadre Resumen. Obtenim, de cada nivell considerat, quantes dades hi ha, la 


seva suma, la seva mitjana 1 la seva variància. 


Quadre Anàlisis de varianza. És el quadre amb el resultat dels càlculs que 


s'han de fer pet obtenir lestadístic de prova. El més interessant són les tres 


últimes columnes d'aquest quadre: 


a) 


D) 


F. És el valor de l'estadístic de prova F. En el nostre exemple, tenim que F 
— 16.1. 

Probabilidad. És el valor del nivell de significació crític o p-valor, En el 
nostre exemple, tenim que o -— 3.86 . 1076. 

Valor crítico para F. És el valor de la taula F, amb els graus de llibertat 
corresponents, que fa de frontera entre acceptar la H, i la H,. En el nostre 


exemple, tenim que F, — 3.18. 


6.3 Comparació de variàncies: test de Levene 


Per poder comprovar si podem assumir que les variàncies de diverses poblacions són 


iguals o no, hi ha diverses opcions, en forma de contrastos, que podem aplicar, En aquest 


cas comentarem el test de Levene, ja que és aplicable en condicions bastant generals i se- 


gueix el mateix procediment que l'ANOVA d'un factor, però aplicat a una transformació 


de les dades mostrals originals. A cada dada original cal restar-li la mitjana mostral del 
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seu nivell o població al qual pertany: el resultat d'aquesta resta s ha d'agafar en valor ab- 
solut. Per tant, seguint amb la notació de l'apartat d'ANOVA amb un factot, tindrem: 


Població o nivell 
1 2 R 
dus Bu xel xa El, — 2.) Xa 4 Xel 
Xim Sl Xin, Se) Xops lames Ral 7 Xip — Ei De 


Amb aquestes dades podem calcular una sèrie d'estadístics: 


ni 
LJ 
Xi 
aa ll 


(mitjana mostral a la població o nivell i) 
ni 


L3 
ns y ni (nombre total d'observacions) 


—/ 
EÈ m 


Que 1/1 — (mitjana mostral general) 


Els passos que s han de seguir per fer una comparació de variàncies segons el test 
de Levene són els mateixos que per fer una ANOVA d'un factor, excepte que ara es tre- 
balla amb les dades xy i que a H, i H, es comparen variàncies en comptes de mitjanes. 
Aquestes hipòtesis ara són: 


1. La hipòtesi nul-la, H, és: 
à 2 as 2 
Hg OS ee SO, 
Això vol dir que, sota Lo podem assumir que les variàncies poblacionals són 


iguals entre les diferents poblacions o entre els diferents nivells del factor con- 
siderat. 


2. La hipòtesi alternativa, H p ÉS 
d 2 2 H : 
H,: 0", 2 O", per a alguna parella i 2 j 


H, significa que hi ha diferències entre almenys les variàncies poblacionals de 


dues poblacions o nivells. 
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Posant les dades adequadament, aquest contrast també es pot fer amb Excel usant 


ANOVA d'un factor. 


Exemple 
Seguint amb l'exemple de les hamburgueses i les seves calories, s ha suposat que les 
variàncies poblacionals eren iguals en els 3 grups d'hamburgueses. Contrastem aquesta 


suposició, amb Q. — 0.05. 


Solució 
1. Com que hem de fer el contrast per comparat variàncies, calcularem la mitjana 


de calories de cada grup d'hamburgueses. Obtenim: 


Xa s 15685 Xa, 118,76 X,, — 158.71 


vedella pollastre 


2. A cada dada original li restem la mitjana del seu grup i agafem el resultat en 


valor absolut. 


Vedella Pollastre Carn 
29.15 10.24 14.29 
24.15 13.24 32.29 
19.15 16.76 23.29 
7.85 12.76 31.29 
27.15 24.76 13.29 
33.15 16.76 11.71 
1.15 31.76 12.71 
17.85 19.76 19.71 
18.15 11.76 16.29 
8.85 5.76 22.71 
4.85 16.24 20.29 
45.85 23.24 5.71 
15.85 32.76 51.71 
3.85 24.24 36.29 
33.15 33.24 23.71 
0.15 27.24 18.71 
25.85 25.24 20.71 
7.85 
21.85 
24.85 
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3. La H, és: 


Ed pl a 

Hg o vedella o pollastre o carn 
Això vol dir que, sota H,, no existeixen diferències entre les variàncies de les calo- 
ries de les hamburgueses segons els diversos nivells considerats de composició. 


4, La H i és: 
F 2 2 : : 
H,: 0", 2 O", per a alguna parella i € j 
H, significa que hi ha diferències entre la variància de les calories d'almenys 


dos grups d'hamburgueses. 


5. S'ha de consultat la taula F de Fisher amb (2,51) graus de llibertat. A la taula 
anterior hem de trobar el punt que deixa a la seva dreta una àrea de O — 0.05. 
Aquest punt és F, — 3.18. Per tant, la zona de les taules on saccepta la H, és 
l'interval (0, 3.18). 

6. La zona de les taules on saccepta la H, és l'interval (3.18, co). 


7. Calculem l'estadístic de prova, F. 


Font de variació gl Suma quadrats Quadrats mitjans F 
Entre grups 2 113.42 56.71 0.49 
Dintre grups 51 5904.58 115.78 
Total 53 6018 


8. Com que lestadístic de prova F — 0.49 es troba a l'interval on saccepta H, di- 
rem que acceptem H, i que, per tant, podem assumir que les variàncies de les 
calories de les diverses composicions d'hamburgueses són iguals. 

9. El valor del nivell de significació crític o p-valort, OL, és 0.6156. 

10. Com que el p-valor, O, — 0.6156, és més gran que el nivell d'error amb el qual 
volem treballar, Cd. — 0.05, acceptem H,i arribem a la mateixa conclusió que 
abans. 


6.4 Disseny ANOVA de dos factors sense interacció. Blocs aleatoritzats 


Suposem que l'observació d'una v. a. X està influida per dos factors. En l'exemple de la 
producció d'avellanes podem considerar el factor sòl i el factor que mesura la quantitat 
de pluja caiguda durant el mes de maig. En aquest cas podríem estudiar si hi ha diferèn- 


cies entre els diferents tipus de sòl o entre les diferents quantitats de pluja caigudes. 
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Suposem que el primer factor (factor fila) té a nivells i que el segon factor (factor 
columna) té b nivells. Suposem també que l'efecte dels dos factors és additiu i que dis- 
posem de n — a : b observacions, una per a cada combinació dels nivells del factor fila 
amb els nivells del factor columna. Amb aquestes condicions, les dades les podem posar 
de la manera seguent: 


Factor columna 
1 2 b 
1 Xi3 Xia Xip 
2 Xy Xa Xa, 
Factor fila 
a X, ts i. X, 


De la taula anterior podem calcular: 


xi. (mitjana dela fila i, 1 £ i S a), 


xy (mitjana de la columna j, 1 8 j 8 b), 


x (mitjana general). 


Els passos que hem de seguir per fer una anàlisi de la variància de dos factors 
sense interacció serien: 


1: 


Determinar quins són els factors que es volen considerar, quins nivells s'han 
agafat de cadascun d'aquests factors i quina és la variable resposta o variable 
observada que es vol estudiar. 


Comprovar que les observacions de cada nivell de cada factor es distribueixen 


normalment i que hi ha la mateixa variància en els diversos nivells. 


Determinar la hipòtesi nul-la, H,. En aquest cas, hi haurà dues H,, una per a 
cada factor, i seran: 


o HO, S ee S Q, (n0 hi ha efecte del factor fila) 
ao HQ: B, S a. S B, (no hi ha efecte del factor columna) 


Determinar la hipòtesi alternativa, H y En aquest cas, hi haurà dues H y una 
per a cada factor, i seran: 


4 Hf: 0,2 OC — pera alguna parella i £ j (hi ha efecte fila) 


ee HU:B,2 y per a alguna parella i z j (hi ha efecte columna) 
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5. Determinar la zona de les taules on saccepta la H,. Hi haurà una zona per a 
cadascun dels dos contrastos que es volen realitzar. La taula que s'ha de con- 
sultar és la F de Fisher, però els graus de llibertat seran diferents segons el 
contrast que es vulgui realitzar: 

4 Contrast del factor fila: a—1 i (a—1)(b—1) graus de llibertat. Buscarem el 
valor F,Í que deixa a la seva dreta una àrea igual a O i la zona de les taules 
on s'accepta la H/ és l'interval ( O, F.J.. 

4 Contrast del factor columna: b—1 i (a—1)(b—1) graus de llibertat. Busca- 
rem el valor F, " que deixa a la seva dreta una àrea igual a O i la zona de les 


taules on saccepta la H,: és l'interval (O, F, ). 


6. Determinar la zona de les taules on saccepta la H,. Seran les zones comple- 


mentàries a les trobades al pas 5), és a dir, seran: 
4. Contrast del factor fila: ( F,Í, co ). 
4, Contrast del factor columna: ( F,/, oo ). 


7. Calcular els estadístics de prova. Per fer cadascun dels contrastos anteriors, 
un per al factor fila i un per al factor columna, necessitem uns estadístics 
diferents segons el contrast que vulguem fer, Els passos que s han de seguir 
per calculat les F per a un disseny de dos factors (sense interacció) els podem 


resumir a la taula: 


Font de 
h S d d qi F 
canaó Es uma quadrats Quadrats mitjans 
— i ee En 
Entre files ell Q-b d (2) òpie Or 0, 
f a-1 o, 
Entre BI Q za) (a, 3) i 0. 7 
columnes 7 Q, 5 Fe 
b-1 Q, 
El (a i 1(b — 1) Q,s y (X,— xi. Es xytx) 0) sl De 7 
0 error Ci U.D 
El ea 
Total ab—1 Qs- D (X,— X) 
LJ 


Per facilitar els càlculs, les sumes de quadrats es poden calcular amb fórmules 


algebraicament idèntiques: 
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O- xiv abx) 


LJ 


Q-bN q'o-abr 


Q.sa Y x, —abx" 

3) 
Q,- Q.— Q, un Q. 

8. A partir dels valors dels estadístics de prova F i les zones d'acceptació de cada 


hipòtesi, decidir quina és la hipòtesi certa per a cada contrast. 


9. Calcular el valor del nivell de significació crític o p-valor de cada contrast: CL/ 
i CL". El p-valor de cada contrast es troba calculant la probabilitat que una dis- 
tribució F de Fisher amb els graus de llibertat corresponents al contrast que es 
vol analitzar sigui més gran que l'estadístic de prova F del contrast correspo- 


nent, és a dir: 


" PE inten o F) — al. 
I PE qe ng o F) sa. 


10.A partir dels valors de O Es Of i de G, decidir quina és la hipòtesi certa per a 


cada contrast. 


Lanomenat disseny en blocs aleatoritzats és un disseny que s'usa especialment en 
lexperimentació agrícola, en el qual es volen comparar a tractaments (per exemple, a 
fertilitzants), assignant els tractaments en b blocs (exemple: b finques), de manera que 
es reparteixen els a tractaments aleatòriament a cada bloc (exemple: els fertilitzants 
s'apliquen aleatòriament en a parcel-les d'una mateixa finca). Interessarà saber si hi ha 


diferències entre els tractaments (O) i entre els blocs ( B): 


i 


1 3 4 5 
Blocs B 4 3 2 
C 1 2 4 
Exemple 


Es va fer un experiment per estudiar l'efecte de dos factors, altura d'escala i ritme 
de pujada d'escales, en el ritme cardíac de les persones. Es van considerar dues altu- 
res diferents d'escala, 14.6 cm i 29.2 cm, i tres ritmes diferents de pujada descales, 14 
escales/minut, 21 escales/minut i 28 escales/minut. Per tant, hi ha 6 combinacions 
diferents dels diversos nivells considerats dels factors. Es van agafar 6 persones. Cada 
persona que va fer l'experiment va pujar les escales durant 3 minuts amb unes condi- 


cions particulars d'altura d'escala i ritme de pujada. La variable que es va mesurar és 
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la diferència entre el ritme cardíac abans de fer l'activitat i el que tenia després de fer 
l'activitat. Els resultats van ser: 


Ritme pujada 

14 j 21 /j 28 
14.6 J9 15 (24 
29.2 1) 16 j 26 j 50 


Altura escala 


Suposant que l'increment de ritme cardíac de cada nivell dels factors considerats 
es distribueix normalment i que hi ha la mateixa variància en els diversos nivells, es vol 
analitzar si hi ha diferències significatives, amb O — 0.05, entre l'increment del ritme 


cardíac dels diversos nivells considerats dels dos factors que es volen estudiar. 


Solució 


1. Els factors que es volen considerar són l'altura descala i el ritme de pujada 
d'escales. Del factor altura d'escala es consideren dos nivells diferents: 14.6 
cm i 29.2 cm. Del factor ritme de pujada d'escales es consideren tres nivells 
diferents: 14 escales/minut, 21 escales/minut i 28 escales/minut. La variable 
resposta que es vol estudiar és l'increment de ritme cardíac després de fer l'ac- 
tivitat. 


2. Hem suposat que es compleixen les condicions per aplicar ANOVA de dos 
factors: les observacions de cada nivell del factor es distribueixen normalment 
i hi ha la mateixa variància en els diversos nivells. 

3. Hi ha dues H, una pera cada factor, i són: 


o HF OS OLg, (No hi ha efecte del factor altura de l'escala) 


o Hi BS P. SB, (no hi ha efecte del factor ritme de pujada d'escales) 


4, Hi ha dues H p Una per a cada factor, i són: 


o HO 8 g, (hi ha efecte de l'altura de l'escala en l'increment del ritme 


cardíac). 
4 HB P per a alguna parella i 2 j (hi ha efecte del ritme de pujada d'es- 
cales en l'increment del ritme cardíac). 
5. Determinem la zona de les taules on saccepta la H, de cada contrast: 
4 Contrast del factor altura d'escala: s'ha de consultar la taula F de Fisher 
amb (1,2) graus de llibertat. A la taula anterior hem de trobar el punt que 
deixa a la seva dreta una àrea de O. — 0.05. Aquest punt és F,Í — 18.5. Per 


tant, la zona de les taules on saccepta la H, és l'interval (0, 18.5). 
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4 Contrast del factor ritme de pujada: s'ha de consultar la taula F de Fisher 
amb (2,2) graus de llibertat. A la taula anterior hem de trobar el punt que 
deixa a la seva dreta una àrea de C. — 0.05. Aquest punt és F,Í — 19.0. Per 
tant, la zona de les taules on saccepta la H," és l'interval (0, 19.0). 


6. Determinem la zona de les taules on saccepta la H, de cada contrast: 
4 Contrast del factor altura d'escala: la zona de les taules on s'accepta la H Í 
és l'interval (18.5, co). 
4 Contrast del factor ritme de pujada: la zona de les taules on saccepta la H, 
és l'interval (19.0, co). 
7. Calculem els estadístics de prova, un per al factor altura descala i un per al 


factor ritme de pujada d'escales: 


Font de variació g.lL lo Suma quadrats j Quadrats mitjans F 
Altura escala 1 3227 3227 6.43 
Ritme pujada 2 624.3 312.2 6.22 
Residu o error 2 100.3 50.2 

Total 3 10473 


8. Hi haurà una conclusió per a cada contrast: 
4 Contrast del factor altura d'escala: com que l'estadístic de prova F — 6.43 
es troba a l'interval on saccepta H J direm que acceptem H El i que, per tant, 
no s ha demostrat que l'increment mitjà del ritme cardíac sigui diferent per 


a les dues altures d'escala considerades. 


4 Contrast del factor ritme de pujada: com que l'estadístic de prova F — 6.22 
es troba a l'interval on saccepta H,, direm que acceptem H,í i que, per 
tant, no s ha demostrat que l'increment mitjà del ritme cardíac sigui dife- 
rent per als tres ritmes de pujada d'escales considerats. 

9. Hi ha un p-valor per a cada contrast: 

4, Contrast del factor altura d'escala: el valor del nivell de significació crític o 
p-valot, ai, és 0.127. 

4, Contrast del factor ritme de pujada: el valor del nivell de significació crític 
o p-valot, OL5, és 0.138. 

10. Segons el p-valor, hi haurà una conclusió per a cada contrast: 

4, — Contrast del factor altura d'escala: com que el p-valor corresponent, O(.Í — 

0.127, és més gran que el nivell derror amb el qual volem treballar, O — 


0.05, acceptem H J i arribem a la mateixa conclusió que abans. 
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4 Contrast del factor ritme de pujada: com que el p-valor corresponent, OL" 
— 0.138, és més gran que el nivell d'error amb el qual volem treballar, O — 


0.05, acceptem H, i arribem a la mateixa conclusió que abans. 


6.4.1 Excel: ANOVA de dos factors amb una sola mostra per grup 


Per fer una ANOVA de dos factors amb una sola mostra per grup amb Excel cal seguir 
els passos segúents: 

1. Hem d'introduir les dades en el full de càlcul. Si seguim amb l'exemple de la 
pujada d'escales, hem de posar les dades d'un factor en files i les de l'altre factor 
en columnes. També podem posar un rètol que indiqui a quin nivell correspo- 
nen les dades de cada fila i de cada columna. La pantalla 3 ens mostra com han 


de quedar les dades una vegada introduides a Excel. 


Pantalla 3. Dades de dos factors amb una sola mostra per grup 


A B C D 
1 14 2 2B 
2 14.5 3 15 24 
3 2.2 16 26 SD 


2. Del menú "Herramientas", triem Anàlisis de datos. 


3. De les funcions que apareixen, triem "Anàlisis de varianza de dos factores con 
una sola muestra por grupo" i acceptem. Ha d'aparèixer el quadre que es veu a 


la pantalla 4. 


Pantalla 4. Quadre de "Anàlisis de varianza 


de dos factores con una sola muestra por grupo" 


Anàlisis de varianza de dos factores con una sola mu... 2 3 


Entrada 
À t 
Rango de entrada: Re. 
3 Cancelar 
( Rótulos: Eren ies 


Alfa: o OS Avuda 


Opciones de salida 


( Rango de salida: i 
(e€ En una hoja nueva: 


(En un lbro nuevo 
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4. Del quadre anterior, hem demplenar: 


a) 


D) 


c) 
d) 


Rango de entrada. Hem de seleccionar les caselles on es troben les dades 


que volem analitzar. 


Rótulos. Hem de marcar aquesta casella si a "Rango de entrada" hem se- 
leccionat les cel-les on hi ha els rètols descriptius dels nivells a què corres- 
ponen les dades de cada fila i de cada columna. Si no s'han posat aquests 
rètols descriptius o no s'han inclòs aquestes cel-les a" Rango de entrada, no 


hem de marcar la casella "Rótulos'. 
Alfa. Hem de posar el nivell d'error amb què volem treballar. 


Opciones de salida. Aquí triem on volem els resultats. Deixem marcada 


lopció "En una hoja nueva. 


El resultat apareix en una fulla nova. Hi ha dos quadres: quadre "Resumen" i 


quadre Anàlisis de varianza'. 


Quadre Resumen. Obtenim, de cada nivell considerat de cada factor, quantes 


dades hi ha, la seva suma, la seva mitjana i la seva variància. 


Quadre Anàlisis de varianza. És el quadre amb el resultat dels càlculs que 


s'han de fer per obtenir els estadístics de prova. El més interessant són les tres 


últimes columnes d'aquest quadre: 


a) 


D) 


c) 


F. Són els valors dels estadístics de prova F i F.. En el nostre exemple tenim 
que F — 6.43 i F — 6.22. 

Probabilidad. Són els valors del nivell de significació crític o p-valor de 
cada contrast. En el nostre exemple tenim Ct/ — 0.127i Of — 0.138. 


Valor crítico para F. Són els valors de la taula F amb els graus de llibertat 
corresponents, que fan de frontera entre acceptar la H, i la H, de cada con- 


trast. En el nostre exemple tenim que Ei — 18.5i F, — 19.0. 


6.5 Disseny ANOVA de dos factors amb interacció 


Suposem que l'observació d'una v. a. X està influida per dos factors i que el nombre 


d'observacions per a cada combinació dels nivells del factor Ala amb els nivells del factor 


columna és més gran que 1. 


Per tant, suposem que el primer factor (factor fila) té a nivells i que el segon factor 


(factor columna) té b nivells. Suposem que disposem de n — a x b x r observacions, 


r per a cada combinació dels nivells del factor fila amb els nivells del factor columna. 


Amb aquestes condicions, les dades les podem posar de la manera segient: 
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Factor columna 
1 2 b 
1 Xi3i hi Xi3, Xios Xio, Xipi xai Xip, 
Factor (2). Xa re Xa, Mega es, lor De Re Ag, 
fila 
dl Xgui Xa, Xo1 Xor Xa as Ron, 


i podem calcular: 


x. (mitjana de la fila i, 1 £ i £ a), 
xj (mitjana de la columna j, 1 € j 8 b), 


xy (mitjana de la combinació de la fila i amb la columna j, 1 Sis a,1 8 j 8 b), 


x (mitjana general). 


Amb aquestes condicions ens apareix un nou element, que és la interacció que 
hi ha entre els factors considerats. Per explicar el significat de la interacció ho farem a 
través d'un exemple: suposem que agafem el temps que es triga a fer una volta al circuit 
de Montmeló en dos cotxes diferents i amb tres conductors diferents. Si no hi hagués 
interacció entre cotxes i conductors, amb cotxes diferents el pilot més ràpid sempre 
tardaria menys temps a fer una volta que els altres pilots o, si més no, la diferència amb 
els altres pilots es mantindria en canviar de cotxe. Però pot passar que un pilot diferent 
estigui molt avesat a un tipus de cotxe en concret i amb aquest cotxe sigui el més ràpid 
o la diferència no sigui tan gran com en l'altre cotxe. D'aquesta manera es veu que hi pot 


haver una interacció entre cotxes i pilots. Gràficament ho podem representar com a: 


130,00 conductor 
— 1.00 
120,00 Part eair dll — 2.00 
— 3.00 
110,00 
100,00 
90,00 
80,00 
70,00 
1.00 2.00 
cotxe 
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Si no hi hagués interacció entre cotxes i pilots, les tres línies serien més o menys 
paral-leles, la qual cosa voldria dir que les diferències de temps es mantenen entre els 
conductors sigui quin sigui el cotxe que agafin. Però en el gràfic anterior podem veure 
que la diferència de temps entre el 3r conductor i els dos primers no és la mateixa amb un 
cotxe que amb l'altre, això indica que hi ha certa interacció entre cotxes i conductors. 

En el cas que tinguem dos factors amb diverses mostres per a cada combinació de 
nivells dels factors, es poden fer 3 contrastos: 


4 Si hi ha diferències entre els nivells del factor Ala. 

4 Si hi ha diferències entre els nivells del factor columna. 

4 Si hi ha interacció entre els dos factors considerats. 

Els passos que hem de seguir per fer una anàlisi de la variància de dos factors amb 

interacció són: 

1. Determinar quins són els factors que es volen considerat, quins nivells s'han 
agafat de cadascun d'aquests factors i quina és la variable resposta o variable 
observada que es vol estudiar. 

2. Comprovar que les observacions de cada nivell de cada factor es distribueixen 
normalment i que hi ha la mateixa variància en els diversos nivells. 

3. Determinar la hipòtesi nul-la, H,. En aquest cas hi haurà tres H,, una per a cada 
factor i una per contrastar si hi ha interacció entre els dos factors, i seran: 

Hfa,c..so, — (no hi ha efecte del factor fila) 
HQ B, See SB, — (no hi ha efecte del factor columna) 
H,: no hi ha interacció entre el factor fila i el factor columna 

4. Determinar la hipòtesi alternativa, H,. En aquest cas, hi haurà tres H, una 
per a cada factor i una per contrastar si hi ha interacció entre els dos factors, i 
seran: 

H/o,z 0, pera alguna parella i 2 j (hi ha efecte fila) 
HP 2P, pera alguna parella i  j (hi ha efecte columna) 
H /: hi ha interacció entre el factor fila i el factor columna 

5. Determinar la zona de les taules on saccepta la H,. Hi haurà una zona per 
a cadascun dels tres contrastos que es volen realitzar. La taula que s'ha de 
consultar és la F de Fisher, però els graus de llibertat seran diferents segons el 
contrast que es vulgui realitzar: 

4 Contrast del factor fila: a — 1 i ab(r — 1) graus de llibertat. Buscarem el 
valor F,Í que deixa a la seva dreta una àrea igual a O i la zona de les taules 


on s'accepta la H , és l'interval ( O, FJ). 
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4 Contrast del factor columna: b — 1 i ab (r — 1) graus de llibertat. Buscarem 
el valor F, " que deixa a la seva dreta una àrea igual a Oli la zona de les taules 
on s'accepta la H, és l'interval ( O, F,). 
4 Contrast de la interacció: (a — 1)(b — 1) i ab(r — 1) graus de llibertat. Bus- 
carem el valor o que deixa a la seva dreta una àrea igual a O i la zona de 
les taules on saccepta la H,' és l'interval (0, F,/). 
6. Determinar la zona de les taules on saccepta la H,. Seran les zones comple- 
mentàries a les trobades al pas 5), és a dir, seran: 
4 Contrast del factor fila: ( F,Í, co ). 
4 Contrast del factor columna: ( F,/, co ). 
4, Contrast de la interacció: ( F,Í, oo ). 
7. Calcular els estadístics de prova. Per fer cadascun dels contrastos anteriors 
necessitem uns estadístics diferents segons el contrast que vulguem fer, Els 


passos que hem de seguir per calcular les F per a un disseny de dos factors 


(amb interacció) els podem resumir a la taula: 


Font de 
Ll tj F 
am gl Suma quadrats Quadrats mitjans 
Entre files a—1 QS br y (xx) 0.- 0, 0, 
I D'gel D 
Entre 31 a) (aci) Lu 0) 0 
columnes 7 0 b.1 o 
Interacció J— (a — 1)(b— 1) Q rr b) aa d xy Os ee — O, 
z  (a-DO-D) Q 
Residu abr i 1) Q,- b) (Xic Xij y an Q, 
0 error L JA rs abír- D 
- ga 
Total abr—1 Q- 2 (Xieo X) 
SER 


Per facilitar els càlculs, les sumes de quadrats es poden calcular amb fórmules 
algebraicament idèntiques: 
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O,- Da abrx- 
7 


QEbry jo —brxs 


i 


2 2 
Qsary xy —abrx 
7 


ij i 


Qu-r x3—br xi —ar qr dabrx" 
Sang r-eys 
Q,- Q —Q, —Q.— Q, 


8. A partir dels valors dels estadístics de prova F i les zones d'acceptació de cada 
hipòtesi, decidir quina és la hipòtesi certa per a cada contrast. 

9. Calcular el valor del nivell de significació crític o p-valor de cada contrast: OLÍ, 
Gi 0," El p-valor de cada contrast es troba calculant la probabilitat que una 
distribució F de Fisher amb els graus de llibertat corresponents al contrast que 
es vol analitzar sigui més gran que l'estadístic de prova F del contrast corres- 


ponent, és a dir: 


É LC Set o E) — aÍ 
h PE cates So F 6) — a 
7 PE an S F 5 z a, 


10. A partir dels valors de O E/ Qi a "i de O, decidir quina és la hipòtesi certa per 
a cada contrast. 


Exemple 

Es va fer un experiment per estudiar l'efecte de dos factors, altura d'escala i ritme 
de pujada d'escales, en el ritme cardíac de les persones. Es van considerar dues altures 
diferents d'escala, 14.6 cm i 29.2 cm, i tres ritmes diferents de pujada d'escales, 14 es- 
cales/minut, 21 escales/minut i 28 escales/minut. Per tant, hi ha 6 combinacions dife- 
rents dels diversos nivells considerats dels factors. Es van agafar 5 persones per a cada 
combinació. La variable que es va mesurar és la diferència entre el ritme cardíac abans 


de fer l'activitat i el que tenia després de fer l'activitat. Els resultats van ser: 


Ritme pujada 
14 21 28 
Altura 14.6 10 15 14 6 0 10 22 20 14 9 15 24 22 39 20 
escala 29.2 11 22 6 33 8 14 30 45 35 6 66 51 37 63 33 
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Suposant que l'increment de ritme cardíac de cada nivell dels factors considerats 


es distribueix normalment i que hi ha la mateixa variància en els diversos nivells, es vol 


analitzar si hi ha diferències significatives, amb O — 0.05, entre l'increment del ritme 


cardíac dels diversos nivells considerats dels dos factors que es volen estudiar. 


Solució 


1, 


Els factors que es volen considerar són l'altura d'escala i el ritme de pujada 
d'escales. Del factor altura d'escala es consideren dos nivells diferents: 14.6 
cm i 29.2 cm. Del factor ritme de pujada d'escales es consideren tres nivells 
diferents: 14 escales/minut, 21 escales/minut i 28 escales/minut. La variable 
resposta que es vol estudiar és l'increment de ritme cardíac després de fer l'ac- 
tivitat. 


Hem suposat que es compleixen les condicions per aplicar ANOVA de dos 
factors: les observacions de cada nivell del factor es distribueixen normalment 
i hi ha la mateixa variància en els diversos nivells. 

Hi ha tres H,, una per a cada factor i una per contrastar si hi ha interacció 

entre els dos factors, i són: 

dE re (no hi ha efecte del factor altura de l'escala) 

a Hi BS P. S B,, (no hi ha efecte del factor ritme de pujada d'escales) 

4 Hi: no hi ha interacció entre l'altura de l'escala i el ritme de pujada 

Hi ha tres H, una per a cada factor i una per contrastar si hi ha interacció 

entre els dos factors, i són: 

o HO 8 Og, (hi ha efecte de l'altura de l'escala en l'increment del ritme 
cardíac) 

ae HB, r P, per a alguna parella i z j (hi ha efecte del ritme de pujada dees- 
cales en l'increment del ritme cardíac) 

4 o H,/: hi ha interacció entre l'altura de l'escala i el ritme de pujada 

Determinem la zona de les taules on saccepta la H, de cada contrast: 

4, Contrast del factor altura d'escala: s'ha de consultar la taula F de Fisher amb 
(1,24) graus de llibertat. A la taula anterior, hem de trobar el punt que deixa 
a la seva dreta una àrea de O — 0.05. Aquest punt és F,Í — 4.26. Per tant, la 
zona de les taules on s'accepta la H / és l'interval (0, 4.26). 

4 Contrast del factor ritme de pujada: s'ha de consultar la taula F de Fisher 
amb (2,24) graus de llibertat. A la taula anterior hem de trobar el punt que 
deixa a la seva dreta una àrea de CG. — 0.05. Aquest punt és F," — 3.40. Per 
tant, la zona de les taules on saccepta la Hi, és l'interval (0, 3.40). 
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t 


Contrast de la interacció: s'ha de consultar la taula F de Fisher amb (2,24) 
graus de llibertat. A la taula anterior, hem de trobar el punt que deixa a la seva 
dreta una àrea de CL — 0.05. Aquest punt és F,/ — 3.40. Per tant, la zona de les 
taules on saccepta la H, és l'interval (0, 3.40). 


6. Determinem la zona de les taules on saccepta la H I de cada contrast: 


t 


Contrast del factor altura d'escala: la zona de les taules on saccepta la H Í 
és l'interval (4.26, co). 
Contrast del factor ritme de pujada: la zona de les taules on saccepta la H," 
és l'interval (3.40, co). 
Contrast de la interacció: la zona de les taules on saccepta la H és l'inter- 


val (3.40, oo). 


7. Calculem els estadístics de prova, un per al factor altura descala, un per al 


factor ritme de pujada d'escales i un per a la interacció entre l'altura de l'escala 


i el ritme de pujada: 


Altura escala 1613.33 1613.33 
Ritme pujada 3121.67 1560.83 


Interacció 501.67 250.83 
Residu o error 3014 125.58 


Es EE DE DS 


8. Hi haurà una conclusió per a cada contrast: 


t 


Contrast del factor altura d'escala: com que l'estadístic de prova FÍ — 12.85 
es troba a l'interval on saccepta H /, direm que acceptem H /i que, per tant, 
l'increment mitjà del ritme cardíac no és el mateix per a les dues altures 


d'escala considerades. 


Contrast del factor ritme de pujada: com que lestadístic de prova F / — 
12.43 es troba a l'interval on saccepta H,, direm que acceptem H, i que, 
per tant, l'increment mitjà del ritme cardíac no és el mateix per als tres 
ritmes de pujada d'escales considerats. 

Contrast de la interacció: com que l'estadístic de prova F Í — 2.00 es troba 
a l'interval on saccepta H,, direm que acceptem H, i que, per tant, no s'ha 
demostrat que la interacció entre l'altura de l'escala i el ritme de pujada 


sigui significativa. 
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9. Hi ha un p-valor per a cada contrast: 


4, Contrast del factor altura d'escala: el valor del nivell de significació crític o 


p-valot, a, és 0.0015, 


4, Contrast del factor ritme de pujada: el valor del nivell de significació crític 


o p-valort, CL, és 0.0002. 


4, Contrast de la interacció: el valor del nivell de significació crític o p-valot, 


01, és 0.1576. 


10. Segons el p-valor, hi haurà una conclusió per a cada contrast: 


4. — Contrast del factor altura d'escala: com que el p-valor corresponent, C.Í — 
0.0015, és més petit que el nivell d'error amb el qual volem treballar, O — 


0.05, acceptem H Ú i arribem a la mateixa conclusió que abans. 


4 Contrast del factor ritme de pujada: com que el p-valor corresponent, 41 
— 0.0002, és més petit que el nivell derror amb el qual volem treballar, O — 


0.05, acceptem H, i arribem a la mateixa conclusió que abans. 


4, Contrast de la interacció: com que el p-valor corresponent, CL" — 0.1576, 
és més gran que el nivell d'errot amb el qual volem treballar, 6 — 0.05, ac- 


ceptem H,/i arribem a la mateixa conclusió que abans. 


6.5.1 Excel: ANOVA de dos factors amb diverses mostres per grup 


Per fer una ANOVA de dos factors amb diverses mostres per grup amb Excel cal seguir 
els passos segúents: 


1. Hem d'introduir les dades en el full de càlcul. Si seguim amb l'exemple de la 
pujada d'escales, hem de posar les dades d'un factor en flles i les de l'altre factor 
en columnes, però per a cada nivell del factor fila hem de reservar tantes flles 
com observacions hi hagi a cada combinació de nivells dels dos factors consi- 
derats (en el nostre cas, 5). També podem posar un rètol que indiqui a quin 
nivell corresponen les dades de cada fila i de cada columna. La pantalla 5 ens 


mostra com han de quedar les dades una vegada introduides a Excel. 
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Pantalla 5. Dades Excel de dos factors amb diverses mostres per grup 


1 

F. 14.6 10 10 15 
E 15 22 24 
4 14 20 22 
H 6 14 33 
6 0 ) 20 
ni 29.2 11 14 66 
6 ds 30 51 
2 6 45 37 
10 33 35 63 
11 6 6 33 


2. Del menú "Herramientas, triem "Anàlisis de datos. 


3. De les funcions que apareixen, triem "Anàlisis de varianza de dos factores con 
varias muestras por grupo" i acceptem. Ha d'aparèixer el quadre que es veu a 


la pantalla 6. 


Pantalla 6. Quadre de "Anàlisis de varianza 
de dos factores con varias muestras por grupo" 


Anàlisis de varianza de dos factores con varias mu... 2 64 


Entrada 

Sr —— 
Cancelar 

Elà por muestra: 

Alfa: D.05 ad Í 


Opciones de salda 
Ç Rango de sallda: 


(e Enuna hoja rmava: I 


C Enunibro nuevo 


4. Del quadre anterior, hem demplenar: 

a) Rango de entrada. Hem de seleccionar les caselles on es troben les dades 
que volem analitzar, En aquest cas, és obligat posar i agafar els rètols dels 
nivells dels dos factors. 

b) Fila por muestra. Hem de posar quantes dades hi ha a cada combinació de 
nivells dels dos factors. Si seguim el nostre exemple, hem de posar 5. 

c) Alfa. S'ha de posar el nivell d'error amb què volem treballar. 

d) Opciones de salida. Aquí triem on volem els resultats. Deixem marcada l'op- 


ció "En una hoja nueva. 
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El resultat apareix en una fulla nova. Hi ha dos quadres: quadre "Resumen" i 


quadre Anàlisis de varianza'. 


Quadre Resumen. Obtenim, de cada nivell considerat de cada factor, quantes 


dades hi ha, la seva suma, la seva mitjana i la seva variància. 


Quadre Anàlisis de varianza. És el quadre amb el resultat dels càlculs que 
s'han de fer per obtenir els estadístics de prova. El més interessant són les tres 


últimes columnes d'aquest quadre: 


a) FE Són els valors dels estadístics de prova F/, F "i F L En el nostre exemple 
tenim que FÍ— 12.85, F' — 12.43 i Fl — 2.00. 

b) Probabilidad. Són els valors del nivell de significació crític o p-valor de cada 
contrast. En el nostre exemple, tenim as — 0.0015, af — 0.0002 i a, — 
0.1576. 


ce). Valor crítico para F. Són els valors de la taula F, amb els graus de llibertat 
corresponents, que fan de frontera entre acceptar la H, i la H, de cada con- 
trast, En el nostre exemple tenim que F,Í — 4.26, F,/ — 3.40i F,/ — 3.40. 


Observacions 


LE 


En aquest exemple de dos factors amb interacció, les mitjanes de cada combi- 
nació d'altura d'escala i ritme de pujada d'escales coincideix amb els valors de 
l'exemple de dos factors amb una sola mostra per a cada combinació de nivells 
dels dos factors considerats. Abans sobtenia que no s'havia demostrat que l'al- 
tura de les escales o que el ritme de pujada de les escales provoqués diferències 
en l'increment del ritme cardíac i ara sobté que sí que hi ha diferències signi- 
ficatives en l'increment del ritme cardíac, tant en canviar l'altura de les escales 
com en canviar el ritme de pujada de les escales. A què pot ser degut aquest 


canvi en les conclusions2 


Per comprovar la força de la interacció, es pot fer un gràfic de les mitjanes de 
les diverses combinacions dels nivells dels dos factors. Realment es veu que hi 
ha una certa interacció, encara que numèricament sobté que aquesta no està 


demostrada de manera clara. 
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7. Proves d'independència i de bondat d'ajustament 
P J 


Les proves per contrastar si dues característiques observades d'una població són inde- 
pendents i per contrastar si les dades recollides en una mostra segueixen una certa dis- 
tribució estadística tenen un punt en comú: es pot usar l'anomenada prova Xhi quadrat 
per fer cadascun d'aquests contrastos. 

Aquesta prova es basa a comparar les freqiències que s'han observat en recollir les 
dades de les mostres amb les frequències que sesperarien si fos certa la hipòtesi nul-la 


que es vol contrastar. Lestadístic que s'ha de calcular per aplicar la prova hi quadrat és: 


1 h Ep È 2 
2 3 (fregiiència observada — freqiiència esperada) 


re frequència esperada 


on È és el nombre de successos en què s ha dividit cert espai mostral. Aquests successos 
han de format una partició de l'espai mostral, és a dir, han de ser disjunts i la seva unió 
ha de coincidit amb l'espai mostral. 

Si les frequències observades sassemblen a les frequències esperades segons la 
hipòtesi nul-la, llavors és raonable pensar que la hipòtesi nul-la és certa. En canvi, si les 
frequències observades són molt diferents de les freqiències esperades segons la hipò- 


tesi nul-la, llavors sembla lògic pensar que la hipòtesi nul-la no és certa. 


Exemple. Suposem que tenim un dau i volem comprovar si està trucat o no. Per com- 


provar-ho, llancem el dau 300 vegades i obtenim els resultats segúents: 


Resultat 1 2 3 4 5 6 
Freg. observada j 45 (52 156 (48 j53 /j 46 
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Si el dau no està trucat, esperaríem que la frequència de cada puntuació del dau 
fos 50. Veiem que les frequiències observades en fer els 300 llançaments són semblants 
a les que sesperarien si el dau no estigués trucat. Per tant, podem afirmar que el dau no 
està trucat, 


Exemple. Suposem que agafem un altre dau i volem comprovat si està trucat o no. 


Per fer la comprovació, llancem aquest dau 300 vegades i obtenim els resultats segúents: 


Resultat 1 2 3 4 5 6 
Freg. observada 20 ) 90 j 10 80 1 15 J 85 


En aquest cas, veiem que les freqiències observades en fer els 300 llançaments són 
bastant diferents de les que sesperarien si el dau no estigués trucat. Per tant, podem 


afirmar que el dau està trucat. 


7.1 Prova d'independència 


Suposem que volem determinar si existeix alguna relació entre dues característiques 
diferents en les quals una població ha estat classificada i on cada característica es troba 
dividida en cert nombre de categories. Per exemple, existeix alguna relació entre l'edat 
de les persones i el color del seu cotxe2 En aquest exemple, s'ha classificat la població 
en dues característiques, on suposem que cadascuna té almenys dues categories ex- 
haustives i mútuament excloents. Aquestes dues característiques són la franja d'edat a 
la qual pertany una persona i el color del seu cotxe. Les categories per a aquestes dues 
característiques podrien ser: 

4 — Per a ledat de cada persona: té entre 18 i 30 anys, entre 30 i 45 anys o és major 


de 45 anys. 
4 — Per al color del seu cotxe: vermell, blau, negre o gris. 


Generalitzant, suposem que tenim una població €2 que admet dues descomposi- 


cions diferents en categories excloents: 
QS A, Feb A, SB, £ et B, 
Suposem que tenim una mostra de n elements, de manera que: 
n, és la frequiència absoluta del succés A, (1 B, 


Les freqiiències observades de la mostra es posen en una taula de contingència 
r X s. Una taula de contingència es forma per les frequències que sobserven per a les 


dues classificacions i les seves categories corresponents. 
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B, B, B, 
A, ni, 12 1s n, 
A, Us ho cis Hi, n, 
A, On, On, n. IL 
hi, B. En n, n 


n.s Y ny vés la frequiència absoluta de A, (total de la fila i). 


ji 


n— Y n, és la frequència absoluta de B (total de la columna j). 
Fl 


Lobjectiu és contrastar si aquestes dues característiques en què s'ha dividit la po- 
blació són independents entre elles o, en canvi, si hi ha relació. 
Els passos que cal seguir per contrastar si dues característiques són independents 
O NO són: 
1. Determinar quines són les dues característiques, A i B, en què s ha dividit la po- 
blació i que són objecte destudi. També s ha de precisar en quines categories, A, 


i B, s'ha subdividit cada característica. 
2. Determinar la hipòtesi nul-la, H,. La H, sempre serà la mateixa: 
H, PAN B) - P(A)PB) — Vij 
Això vol dir que, si es compleix H, les característiques A i B són indepen- 
dents i que no hi ha relació entre A i B. 


3. Determinar la hipòtesi alternativa, H,. La H, sempre serà la mateixa: 


Hi PAN B) z P(A )P(B) per a alguna parella i,j 


i 
i, significa que A i B són dependents i que hi ha relació entre les categories 


de les característiques A i B. 


4. Construir la taula de frequiències esperades sota la suposició que H. , és certa, En 


aquest cas, la frequiència esperada de la cella A, (1 B, sota H, és: 


nn /n 
a Í 
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La taula de frequències esperades seria: 


B, B, B, 
A, na, /n nn,/n n,n /n n,. 
À, nn, /n —n,n,/n n,n /n n, 
A, nn,/n n n,/n nn /n D, 
n., hi, sis n, n 


Calcular lestadístic de prova, que en aquest cas anomenarem X". Aquest estadís- 


tic es calcula segons la fórmula: 


(obs, —esp, / EE (n, —n,n., ny 


do ALL 


HA AH esp, FA A nn,in 


Determinar la zona de les taules on saccepta la H,. La taula que s ha de consultar 
és la X" amb (r— 1)(s — 1) graus de llibertat. Per a un nivell de significació Q, si X.,, 
és tal que P( XX. X/,) — O (és a dir, el punt de la taula X" que deixa a la seva dreta 
una àrea igual a Ct), la zona de les taules on saccepta la H, és l'interval (0, X,, ). 
Determinar la zona de les taules on saccepta la H,. Serà la zona complementària 
a la que hem trobat al pas 6), és a dir, serà l'interval ( X.,, , oo ). 

Segons els valors de l'estadístic de prova X" i les zones d'acceptació de cada hipò- 
tesi, decidir quina és la hipòtesi certa. 

Calcular el valor del nivell de significació crític o p-valor CL... El p-valor es troba cal- 
culant la probabilitat que una distribució XC amb (r — 1)(s — 1) da de llibertat 
sigui més gran que l'estadístic de prova X, és a dir, P(X", nen IX Ne 


10. Segons els valors de Gi de O, decidir quina és la hipòtesi certa. 


Observacions 


1, 


2, 


Quan saplica la prova Ehi quadrat s'ha de procurar que les freqiiències espe- 
rades siguin superiors a 5. Si aquesta condició no es verifica, és recomanable 
agrupar successos perquè les frequències augmentin: en aquest cas disminui- 


ran els graus de llibertat. 


La fórmula per calcular l'estadístic de prova X" també es pot expressar com a: 
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3. En una taula 2 x 2, aquesta fórmula és: 


2 (nn —n,n y 
n I 22 12 21 


NH, NH, 


X 


Si en una taula 2 x 2 les freqiències esperades són petites, haurem d'usar la 
correcció de Yates, que consisteix a utilitzar la fórmula: 


2 
n 
Na Hog — Mo Hoy — 2 
2 
x -n 


nn, AH, 


4. Quan en una taula de contingència saccepta que hi ha dependència entre les 


dues característiques A i B estudiades, convé calcular el coeficient: 


sent q — mínir,st — 1. C és el coeficient de contingència de Cramer, que pro- 
porciona una mesura del grau d'associació entre els successos A, ..., A i els 


successos B,, ..., B. Aquest coeficient verifica que: 
a) OsCsl1. 
b) Si C — O existeix independència completa. 


c) Com més gran sigui el valor de C, més dependència hi ha entre les catego- 


ries de les característiques A i B. 


Exemple. Es vol estudiar si hi ha alguna relació entre l'edat de les persones i el color 
del seu cotxe. Per fer aquest estudi sagafen 300 persones i es classifiquen segons la seva 
franja d'edat i el color del seu cotxe. Les franges d'edat que s'han considerat són: de 18 a 
30 anys, de 30 a 45 anys i més de 45 anys. El color del cotxe pot ser: vermell, blau, negre 


i gris, Els resultats obtinguts es mostren a la taula de contingència segient: 


vermell blau negre gris 
18 - 30 anys 60 40 3 7 110 
30 - 45 anys 15 8 22 75 120 
4 45 anys 5 2 39 28 70 
80 50 60 110 300 
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Volem veure si hi ha independència o no (A — 0.05) entre l'edat de les perso- 


nes i el color del seu cotxe. 


Solució 

1. Les dues característiques que es consideren són: edat i color del cotxe. Les 
categories en què s ha dividit ledat són: de 18 a 30 anys, de 30 a 45 anys i més 
de 45 anys. Les categories en què s ha tingut en compte el color del cotxe són: 
vermell, blau, negre i gris. 

2. La Hg és: 
H,: l'edat i el color del cotxe són característiques independents (no estan re- 
lacionades). 
H, significa que, per exemple, dintre d'una franja d'edat, la fracció de persones 
que tenen un color de cotxe o un altre és semblant a la fracció del total de per- 


sones que tenen aquell color de cotxe, és a dir, trobar-se en una franja d'edat o 


una altra no té influència en el color del cotxe. 

3. La H, és: 
H,: ledat i el color del cotxe són característiques dependents (estan relaci- 
onades). 


Això vol dir que, sota H., la fracció del nombre de cotxes d'un color o un altre 
depèn de la franja d'edat de l'usuari. 


4. La taula de frequències esperades sota H  éS: 


vermell blau negre gris 
18 - 30 anys 110:80/300 j 110:50/300 /j 110:60/300 j 110:110/300 110 
30 - 45 anys 120:80/300 / 120:50/300 /j 120:60/300 j 120:110/300 120 
4 45 anys 70:80/300 70:50/300 70:60/300 70:110/300 70 
80 50 60 110 300 
és a dir, 
vermell blau negre gris 

18 - 30 anys 29.3 18.3 22 40.3 110 

30 - 45 anys 32 20 24 44 120 

4 45 anys 18.7 11,7 14 29,4 70 

80 50 60 110 300 
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. Calculem lestadístic de prova, X". 


2 2 2 
3. (60—29.3) y (40-18.3) L , (08-25) 


dia S 189.59 
29.3 18.3 25.4 


S'ha de consultar la taula X" amb (3 — 1)(4 — 1) — 6 graus de llibertat. A la taula 
anterior hem de trobar el punt que deixa a la seva dreta una àrea de € — 0.05. 
Aquest punt és XX, — 12.6. Per tant, la zona de les taules on saccepta la H, és 


l'interval (0, 12.6). 


7. La zona de les taules on saccepta la H, és l'interval (12.6, co). 


5. 


. Com que lestadístic de prova X" — 189.59 es troba a l'interval on saccepta H, 


direm que acceptem H , i que, per tant, hi ha dependència entre ledat i el color 


de cotxe. 


El valor del nivell de significació crític o p-valor, Q, és 3.1. 105, 


10. Com que el p-valor, O, — 3.1 - 10 $, és més petit que el nivell derror amb el 


qual volem treballar, C. — 0.05, acceptem H, i arribem a la mateixa conclusió que 


abans. 


11. En aquest cas té sentit calcular el coeficient de contingència de Cramer: 


de do in 189.59/300 
q 


— 0.316 


7.2 Proves de bondat d'ajustament a una distribució 


Lobjectiu d'aquest apartat és donar les bases per, donat un conjunt de dades, contrastar 
si aquestes dades podem suposar que segueixen una certa distribució determinada, Per 


realitzar aquest contrast, ho podem fer a través de dues aproximacions diferents: 


Avaluant les diferències que hi ha entre les frequències esperades sota la distri- 


bució posada com a hipòtesi nul-la i les frequències observades: en aquest cas s'usarà la 


prova hi quadrat. 


Comparant la funció de distribució de la distribució posada com a hipòtesi nul-la 


i la funció de distribució mostral, sota aquesta aproximació s'usarà el test de Rolmogo- 


roy-Smirnov. 
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7.2.1 La prova Rbi quadrat 


Partim de la base que tenim unes dades mostrals, x,, X., .., X , que provenen d'una po- 
q 1 2 n q 


blació. El que volem contrastar és si aquestes dades podem suposar que segueixen certa 


variable aleatòria X o no. X pot ser qualsevol de les distribucions conegudes: binomial, 


Poisson, normal, exponencial, uniforme... 


Per fer aquest contrast de bondat d'ajustament segons la prova hhi quadrat, cal 


seguir els passos seguents: 


1. 


Determinar la hipòtesi nul-la, H, S'ha d'especificar quina és la distribució de 


referència X a partir de la qual volem comprovar si les dades s'hi ajusten o no. 


La H,: 
H,: les dades segueixen la distribució X 
Determinar la hipòtesi nul-la, H,. La H, serà la contrària que la H,: 
H,: les dades no segueixen la distribució X 


Calcular les frequències observades. Per fer això, dividirem el camp on 
pot prendre valors la variable aleatòria X en intervals de classe disjunts I 0 Last 
RI calcularem les frequències absolutes n ges ds SENEM, el nombre de valors 


mostrals que pertanyen a l'interval I. 
1 
Calcular les freqiències esperades sota la H qe Les frequències esperades seran 
NP NP, es NP, ON P, és la probabilitat de l'interval I, sota H,. 
Calcular lestadístic de prova, que en aquest cas anomenarem X". Aquest estadís- 


tic es calcula segons la fórmula: 


Determinar la zona de les taules on saccepta la H,. La taula que s'ha de consultar 
és la X/ amb R— s — 1 graus de llibertat, on s és el nombre de paràmetres que s'han 
hagut destimar, a partir de les dades mostrals, de la distribució X. Per a un nivell 
de significació O, si X",, és tal que P( XX X",) — a (és a dir, el punt de la taula X" 
que deixa a la seva dreta una àrea igual a Ot), la zona de les taules on saccepta la 
Ld LE 2 

H, és l'interval (O, Xí, ). 

Determinar la zona de les taules on saccepta la H p Serà la zona complementària 
a la trobada al pas 6), és a dir, serà l'interval ( XX. 308 ), 


Segons els valors de lestadístic de prova X" i les zones d'acceptació de cada hipò- 


tesi, decidir quina és la hipòtesi certa. 
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9. Calcular el valor del nivell de significació crític o p-valor CL. El p-valor es troba 
calculant la probabilitat que una distribució X" amb R — s — 1 graus de llibertat 
sigui més gran que lestadístic de prova X", és a dir, P(X, , ,2 XÍ) — G. 


10. Segons els valors de Gi de O, decidir quina és la hipòtesi certa. 


Observacions 

1. La prova hi quadrat és de naturalesa discreta, és a dir, es comparen les fre- 
quiències observades i les freqiències esperades per a un nombre finit de cate- 
gories. Per tant, si a la hipòtesi nulxla tenim una variable aleatòria X contínua, 
caldrà dividir el rang de possibles valors de la variable X en un nombre finit 


d'intervals de classe. 


2. La prova Xhi quadrat ens afirma que l'estadístic X" tendeix a una Xhi quadrat a 
mesura que 4 augmenta. S'ha vist que, a partit que n sigui 5 vegades el nombre 
d'intetvals de classe, els resultats són acceptables. Per tant, seria bo seleccionar 
els intervals de classe de manera que tota frequència esperada sigui major que 
5. Això es pot aconseguir ajuntant intervals de classe veins, però cal tenir en 
compte que el nombre de graus de llibertat es redueix en 1 cada vegada que 


ajuntem dos intervals. 


Exemple 1. A la taula segúent tenim el nombre de faltes comeses per alumne (hi 


ha 50 alumnes) en un dictat i volem veure si aquestes dades sajusten a una distribució 


de Poisson (O — 0.05). 


Faltes 0 1 2 3 4 5 6 7 
Nombre d'alumnes 2 6 11 11 12 4 3 1 


Solució 
1. La H, és: 
Hy: les faltes per alumne segueixen una distribució Poisson 
2. La H, és: 
H,: les faltes per alumne no segueixen una distribució Poisson 


3. Les frequiències observades es donen a la taula de l'enunciat. 


Faltes 0 1 2. 3. 4 5 6 7omés 
Nombre d'alumnes observats 2 6 11 11 12 4 3 1 
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4. Per calcular les frequències esperades, hem de suposar que les dades segueixen 
una Poisson. Com que no ens donen el paràmetre À que té la distribució de 


Poisson, l'hem d'estimar a partir de la mitjana mostral i obtenim À — 3.08. 


A partir d'aquí apliquem la fórmula de la funció de probabilitat de la Poisson, 


amb À — 3.08, per saber quina és la probabilitat de cada nombre de faltes. 


Faltes 0 1 2 3 4 5 6 7 o més 
Probabilitat (p) 0.0460 0.1416 0.2180 0.2238 0.1723 yQ0.1062 0.0545 —0.0377 


Per exemple, la probabilitat esperada del nombre d'alumnes que fan zero fal- 


tes és: : 
P(Poiss(3.08)70) — e$ 8 3 - — 0.0460 
Les frequències esperades seran: 
Faltes 0 1 2 3 4 5 6 7 o més 


Nombre d'alumnes 


2.30 7.08 10.90 11.19 8.62 5.31 2.72 1.89 


esperats 


Com que hi ha frequències esperades que són més petites que 5, ajuntem in- 
tervals de classe: 


Faltes 1 o menys 2 3 4. Somés 
Nombre d'alumnes esperats 9.38 10.90 11.19 8.62. — 9.92 


Fem el mateix amb les observades: 


Faltes 1omenys 2. 3. 4. 5omés 
Nombre d'alumnes observats 8 11 11 12 8 


5. Calculem l'estadístic de prova: 


a (8—9.38) H (11—10.90Y R (11—11.19Y R (12—8.62Y H (8—9.92P— 
9.38 10.90 11.19 8.62 9.92 


191 


6. S'ha de consultar la taula X amb —s—1-5-— 1-1 - 3 graus de llibertat (R 
és 5 perquè, al final, s han agafat 5 intervals de classe i s és 1 perquè s'ha hagut 


d'estimar el paràmetre À de la Poisson). A la taula anterior hem de trobar el punt 
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que deixa a la seva dreta una àrea de O. — 0.05. Aquest punt és X",, — 7.8. Per tant, 


la zona de les taules on saccepta la H, és l'interval (0, 7.8). 
7. La zona de les taules on saccepta la H, és l'interval (7.8, co). 


8. Com que lestadístic de prova X" — 1.91 es troba a l'interval on saccepta H, di- 
rem que acceptem H, i que, per tant, podem suposar que el nombre de faltes per 
alumne sajusta a una distribució Poisson. 


9. El valor del nivell de significació crític o p-valor, OL y és 0.58. 


10. Com que el p-valor, a, — 0.58, és més gran que el nivell d'error amb el qual volem 


treballar, O — 0.05, acceptem H, i arribem a la mateixa conclusió que abans. 


Exemple 2. S'han recollit dades corresponents als pesos de 150 persones i s'ha 
obtingut una mitjana de 72 quilos i una desviació estàndard de 6 quilos. Volem saber 
si aquestes dades sajusten a una distribució normal (amb O — 0.05) i, per això, s'han 
agrupat les dades en 6 intervals de classe. La taula segient mostra els resultats una ve- 
gada s han agrupat els pesos. 


Pes 50-61 61-65 65-69 69-74 74-80 80-110 
Nombre de persones 8 12 20 54 34 22 


Resolució. 
1. La H, és: 


EH: el pes segueix una distribució normal 
2. La H I és: 
En el pes no segueix una distribució normal 


3. Les frequències observades es donen a la taula de l'enunciat. 


Pes 61 o menys 61-65 65-69 69-74 74-80 800 més 
Nombre de persones 8 12 20 54 34 22 


4. Per calcular les frequències esperades, hem de suposar que les dades segueixen 
una normal on s'han estimat els valors de la mitjana i la desviació estàndard, 
aquests valors són 72 i6, respectivament. 

A partir d'aquí busquem a les taules de la normal per saber quina és la proba- 
bilitat de cada interval de pesos fet. 
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Pes 61 o menys — 61-65 — 65-69 — 69-74 74-80 — 800 més 
Probabilitat (p) 0.0334 0.0883 —0.1869 —0.3220 0.2782 —0.0912 


Per exemple, la probabilitat esperada del nombre d'alumnes que pesen entre 
61 i 65 quilos és: 
P(61 € N(72,6) € 650) — 0.0883 


Les frequències esperades seran: 


Pes 61 o menys 61-65 65-69 69-74 74-80 80 o més 


Nombre de persones 5.01 13.24 28.03 48.30 41.73 — 13.68 


esperades 


Com que no hi ha frequències esperades que siguin més petites que 5, no 


ajuntarem intervals de classe i treballarem amb els que tenim actualment. 


5. Calculem l'estadístic de prova: 


, (8—5.01) (20-13.24Y, q (2-13.68Y 


d Es S 11.37 
5.01 13.24 13.68 


6. S'ha de consultar la taula X amb R —s— 1 — 6— 2 — 1 — 3 graus de llibertat (R 
és 6 perquè s'han agafat 6 intervals de classe i s és 2 perquè s han hagut destimar 
els paràmetres mitjana i desviació estàndard de la distribució normal). A la taula 
anterior hem de trobar el punt que deixa a la seva dreta una àrea de € — 0.05. 
Aquest punt és X",, — 7.8. Per tant, la zona de les taules on saccepta la H, és l'in- 
terval (0, 7.8). 

7. La zona de les taules on saccepta la H, és l'interval (7.8, co). 

8. Com que lestadístic de prova XÍ — 11.37 es troba a l'interval on saccepta H, di- 
rem que acceptem H, i que, per tant, els pesos de les persones no sajusten a una 
distribució normal. 

9. El valor del nivell de significació crític o p-valor, OL, és 0.001. 

10. Com que el p-valor, O, — 0.001, és més petit que el nivell derror amb el qual vo- 


lem treballar, OC — 0.05, acceptem H, i arribem a la mateixa conclusió que abans. 
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7.2.2 El test de Rolmogorov-Smirnov 


Per aplicar la prova de la Xhi quadrat cal un nombre relativament elevat de dades perquè 
es compleixi que les frequiències esperades, sota la H,, de cada interval de classe sigui 
major que 5 i que hi hagi un nombre d'intervals de classe suficient per no quedar-nos 
sense graus de llibertat quan consultem la taula X". Per exemple, si disposem de menys 
de 20 dades i volem comprovar si podem suposar que les dades provenen d'una distri- 
bució normal, hauríem de tenir un màxim de 3 intervals de classe perquè a cadascun hi 
hagués un mínim de 5 dades esperades. A més, cal estimar 2 paràmetres: la mitjana i la 
desviació estàndard de la normal: en aquest cas, els graus de llibertat amb què caldria 
consultar la taula X serien 3 — 2 — 1 — O graus de llibertatlll 

La prova de Rolmogorov-Smirnov no necessita que les dades es trobin agrupades 
i es pot aplicar quan les mostres tenen pocs elements. Com s'ha comentat abans, en 
aquest test es compararà la funció de distribució de la distribució proposada a la hipò- 
tesi nul-la i la funció de distribució de la mostra una vegada aquesta ha estat ordenada. 
Si aquesta comparació ens mostra una diferència prou gran entre les funcions de distri- 
bució mostral i la proposada sota H, llavors la hipòtesi nul-la es rebutja: si la diferència 
és petita, llavors saccepta la H,. 


Per aplicar el test de Rolmogorov-Smirnov els passos que cal seguir són: 


1. Determinar la hipòtesi nul-la, H,. S'ha despecificar quina és la distribució de 
referència X a partir de la qual volem comprovar si les dades s'hi ajusten o no. 
La H: 
Et les dades segueixen la distribució X. 
2. Determinar la hipòtesi nul-la, H y La H, serà la contrària que la Re 


El les dades no segueixen la distribució X. 


3. Calcular la funció de distribució mostral de les dades ordenades. Per això, supo- 


sem que tenim una Mostra X,, .., X, Í lordenem. Notem mitjançant X, y .., X 


(1) () 


la mostra ordenada: 


La funció de distribució mostral és: 


0 si X € Xq3 
de ea 

S,(x)s pi SiXg SXSXga iSL..,n-l 
I SiXEXu 
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És a dir, per a qualsevol valor ordenat x de la mostra aleatòria, S ,(x) és la propor- 


ció del nombre de valors a la mostra que són iguals o menors que x. 


4, 


Calcular la funció de distribució, suposant certa la H,, en cadascun dels va- 
lors mostrals ordenats. És a dir, per a cada valor xçp cal trobar F(x,) — P(X s 
xy): 

Calcular lestadístic de prova, que en aquest cas notarem amb D,i sanomena 
estadístic de Rolmogorov-Smirnov. Aquest estadístic és la diferència màxima en- 
tre la funció de distribució mostral ordenada i la funció de distribució sota H, 


i es defineix com a: 
D,z màx ÍS,(x) — F4(2)l 


A efectes pràctics, cal tenit present que es poden donar dues situacions dife- 
rents: 


Es) 


é€b) 


a) La distància màxima entre F(x) i S,(x) lobtenim just abans d'arribar fins a 
SO Fa) 
b) La distància màxima és (S (x,) — F(x,) 


x, i val 


Li 


4 


Per tant, quan apliquem el test, s ha de calcular per a cada punt x,: 
D,(x,) — màòxí S(x, 4) z EE) S (2, - Ex, 


i després agafem el màxim d'aquests D (x,). Aquest últim valor serà D . 
nN b n 


, 


Determinar la zona de les taules on saccepta la H,. Tenim una taula especial, 
taula de Rolmogorov-Smirnov, que conté, per a cada n X 1, els punts crítics a, 
tals que: 

PD se)-e 
per a diferents valors de CG. Llavors, per a un nivell de significació O, la zona de 
les taules on saccepta la H, és l'interval (O,a, ). 


Determinar la zona de les taules on saccepta la H,. Serà la zona complementària 


a la que hem trobat al pas 6), és a dir, serà l'interval ( pl ) 
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8. Segons els valors de lestadístic de prova D, i les zones d'acceptació de cada hipò- 


tesi, decidir quina és la hipòtesi certa. 


Exemple. Volem contrastar, amb O. — 0.5, si la mostra segúent de durades de vida 


de cert dispositiu es pot suposar exponencial: 


16, 8, 10, 12, 6, 10, 20, 7, 2, 24. 


Solució 


1. La H, és: 
H,: la durada segueix una distribució exponencial. 
2. La H, és: 
H ,: la durada no segueix una distribució exponencial. 
3, 4i5. 
Com que no sespecifica quin és el paràmetre À de la funció exponencial que 


hem d'usat, el primer que farem és estimat-lo a partir de les dades. Com que la 


mitjana mostral és 11.5, l'estimació del paràmetre À serà 1/11.5. 


Construim la taula segient: 


x, (F(x) Sa) ES) Sa) - Fa)l l'I, )-Fel Da) 
2 J) 0161 01 0 0.06 0.16 0.16 
6 J 041J 02 J. 01 0.21 031 0.31 
7 ) 0464 03 J. 02 0.16 0.26 0.26 
8 j 05 Il 04 J 03 0.10 0.20 0.20 
10) 0.58 J 0.5 1. 04 0.08 0.18 0.18 
10/ 0.58) 06 I. 05 0.02 0.08 0.08 
12) 0.65) 07 1. 06 0.05 0.05 0.05 
16) 075 J 08 I. 07 0.05 0.05 0.05 
20) 0.82 1 0.9 J. 08 0.08 0.02 0.08 
24) 0881 1 0.9 0.12 0.02 0.12 


Lestadístic D, pren un valor de 0.31. 


6. Agafant un nivell de significació O — 0.05, obtenim a la taula de Rolmogorov- 
Smirnovy (n — 10) un valor a, ,, — 0.409. Per tant, la zona de les taules on sac- 


cepta la H, és l'interval (0, 0.409). 


7. La zona de les taules on saccepta la H, és l'interval (0.409, 1). 
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8. Com que lestadístic de prova D, — 0.31 es troba a l'interval on saccepta H, di- 
rem que acceptem H, i que, per tant, podem suposar que la durada del dispositiu 


segueix una distribució exponencial. 


7.2.2,1 EL CONTRAST DE ROLMOGOROV-SMIRNOV-LILLIEFORS 


Suposem que estem sota les mateixes condicions amb les quals aplicàvem el contrast de 
Rolmogorov-Smirnov i que volem contrastar que la distribució de X és N(4,0), on pi 
G són desconeguts o no. Aleshores, estimarem Ui O mitjançant Xi S, respectivament, 
Això ens permetrà especificat de manera completa el model sota la hipòtesi nul-la i, per 
tant, poder operar com en el cas del contrast de Rolmogorov-Smirnov utilitzant, en 


aquest cas, la taula de Lilliefors. 


Exemple. Volem contrastat, amb GC. — 0.05, si la mostra segúent de durades de vida 


de cert dispositiu es pot suposar que segueix una distribució normal: 
16, 8, 10, 12, 6, 10, 20, 7, 2, 24. 


Solució 


1. La H, és: 
H,: la durada segueix una distribució normal. 
2. La H, és: 
H,: la durada no segueix una distribució normal. 


3,4i5. 
Com que no sespecifica quins són els paràmetres u i O de la distribució nor- 
mal, el primer que farem és estimar-los a partit de les dades. Aquestes estima- 


cions són 11.5 i 6.72, respectivament. 


Construim la taula segient: 
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x, (Ex) (Sax) LS, 3) i IS) Fe l lIS FR i De) 
2 j 0.08 (01 0 0.02 0.08 0.08 
6 (021 02 j 01 0.01 0.11 0.11 
71.025) 03 J. 02 0.05 0.05 0.05 
8 j 0301 04 j 03 0.10 0.00 0.10 
10) 041) 05 1. 04 0.09 0.01 0.09 
10) 0.41) 06 I. 05 0.19 0.09 0.19 
12) 053) 07 1. 06 0.17 0.07 0.17 
16 / 075 / 08 Il. 07 0.05 0.05 0.05 
20) 0.90 1 0.9 j— 08 0.00 0.10 0.10 
24) 0971 1 0.9 0.03 0.07 0.07 


Lestadístic D, pren un valor de 0.19. 


. Agafant un nivell de significació O — 0.05, obtenim a la taula de Lilliefors (n 
— 10) un valor Oqos — 0.262. Per tant, la zona de les taules on saccepta la H, és 


l'interval (0, 0.262). 


7. La zona de les taules on saccepta la H, és l'interval (0.262, 1). 


. Com que lestadístic de prova D, — 0.19 es troba a l'interval on saccepta Hi, di- 
rem que acceptem H, i que, per tant, podem suposar que la durada del dispositiu 


segueix una distribució normal. 
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8. Regressió lineal 


8.1 Relació entre variables 


Per relacionar dues o més variables a través d'alguna funció tenim diverses tècniques es- 
tadístiques. Laplicació d'una tècnica o d'una altra dependrà de la quantitat de variables, 
el tipus de variables i la funció que relaciona les variables. 


El cas més general de relació entre variables seria: 


Ga Marsen 9) SE) 


on les variables y, sanomenen variables dependents i les variables x, sanomenen variables 
independents. Lobjectiu general és predir valors de les variables dependents a partir dels 
valors de les variables independents. 

En el cas particular que només hi hagi una sola variable dependent, la relació la 
notarem segons: 


VE tes x,) 


Les tècniques estadístiques que podem usar pet relacionar variables són: 
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Variable dependent 
1 1 
Numèrica No numèrica 
Numèrica Egea en 
i simple logística 
R Qi ANOVA 1 
No numèrica 
factor 
Variable Numèrica Segre l Ge da 
. múltiple discriminant canònica 
independent 
. I ANOVA 2 o o. . MANOVA 2 
No numèrica I Anàlisi conjunta , 
s1 més factors o més factors 
Regressió 
Barreja ANCOVA logística i MANCOVA 
ordinal 


En el cas que la funció F sigui lineal, es diu que fem regressió lineal simple i re- 
gressió lineal múltiple. En aquests casos tindrem que les relacions entre variables són 
donades per: 

4 Regressió lineal simple: Y — O 4 BX, equació d'una recta on O és l'ordenada 

a l'origen i B és el pendent de la recta. El pendent d'una recta indica en quina 
quantitat augmenta (o disminueix, si el signe del pendent és negatiu) la varia- 
ble Y per cada unitat que augmenta la variable X. Lordenada a l'origen indica 


quin és el valor de la Y quan la X és O (punt de tall de la recta amb l'eix d'or- 


denades). 

4 Regressió lineal múltiple: Y — B, t B,X, Y B,X, t..t B,X, on P, és el terme 
independent de l'equació i els restants B, són els coeficients que acompanyen 
cadascuna de les variables independents. La interpretació de cada coeficient B, 
seria anàloga a la del pendent però referint-se a la variable X, que acompanya el 
coeficient B, és a dir, és la quantitat que augmenta (o disminueix, si el signe del 
coeficient B, és negatiu) la variable Y per cada unitat que augmenta la variable 


X, (suposant que la resta de variables independents es mantenen fixes). 


En el cas que la funció no sigui lineal, direm que fem regressió no lineal. Aquesta 


pot adoptat diverses formes: potencial, logarítmica, exponencial, polinòmica... 
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8.2 Model de regressió mostral simple 


La formulació d'un model de regressió requereix delimitar el fenomen que es vol estu- 


diar, localitzar les variables i establir les relacions que hi ha entre aquestes. 


Exemples 


t 


t 


Podem establir una relació lineal entre el pes (P) i les altures (A): 
P-a-BA 


Existeix una relació no lineal entre quantitat produida (Q) i capital (R) i tre- 


ball (L) del tipus: 
QZ AL RP 


Per altra banda, l'observació de la realitat ens permetrà obtenir les dades necessà- 


ries sobre les variables que componen el model per tenir una base sobre la qual treba- 


llarem. A partir del model que proposem i de les dades observades, s'usaran tècniques 


d'inferència estadística per estimar i verificar el model, la finalitat del qual serà fer pre- 


diccions. 


8.2.1 Components d'un model 


Distingim quatre elements en un model: equacions, variables, paràmetres i terme de 


pertorbació. 


t 


Equacions: són les relacions que hi ha o hi pot haver entre les variables que 
estem estudiant. Per trobar el tipus dequació o funció que millor sajusta a les 
nostres dades, podem fer un gràfic amb les dades i veure quina relació existeix 


entre elles. 


Variables: la classificació més generalitzada ens divideix les variables que for- 


men part del model en: 


a) Variables explicades o endògenes: són les variables dependents que es vo- 


len explicar a través del model. 


b) Variables explicatives o exògenes: són les variables independents i que 


intenten explicar el comportament de les variables explicades. 


Paràmetres: són els coeficients que afecten les variables explicatives i mesuren 


l'efecte de les Auctuacions d'aquestes variables sobre la variable explicada. 


Terme de pertorbació: introduirem aquest component del model amb un 


exemple. Suposem que ens trobem davant d'un model lineal on es vol explicar 
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la quantitat de vi en cert lloc (V) a partir de la pluja caiguda el mes de maig (P): 
V - a 4 BP. Per cada valor de la pluja (P) existeix un valor de la quantitat de vi 
(V) que ens és donat per l'equació anterior. Es tracta d'una relació on no hi ha 
aleatorietat. Per tant, segons aquest model, tots els anys que plogui el mateix 
(P), la producció de vi serà la mateixa, i sabem que això no és així. Per tant, en 
aquest model hi falta algun terme que ens pugui explicar les diferències que hi 
ha entre els individus. Si introduim aquest terme, el model ens queda: V — a. 


4 BP - u, on u serà una v, a. que anomenem terme de pertorbació. 
Les principals funcions del terme de pertorbació són: 

a) recollit les variables explicatives que no són al model. 

b) recollit especificacions incorrectes de l'equació del model. 

c) recollir els errors en la mesura de les variables. 


d) recollir el comportament aleatori dels resultats. 


8.2.2 Hipòtesis bàsiques del model de regressió lineal simple 


Suposarem que tenim una variable explicada i una variable explicativa. El model de 


regressió lineal simple es basa en una sèrie d'hipòtesis sobre els diferents components 


del model. 


Respecte a l'equació. Existeix una relació lineal entre la variable explicada i la varia- 
ble explicativa. Formalment escriurem: 


Y, SO BX tu is L,2,,n 
on: 
4 Y: variable explicada, 
4 OX: variable explicativa, 
e  O, B: paràmetres, 
4. U: terme de pertorbació. 


El subíndex i indica les observacions mostrals que tenim. 


Respecte a la variable explicativa (X). El nombre d'observacions ha de ser més gran 
que el nombre de paràmetres. En el cas de la regressió lineal simple, el nombre d'obser- 
vacions ha de ser més gran que 2. 


Respecte als paràmetres, O. i B són constants al llarg del mostreig. Aquestes són les 


constants que tractarem d'aproximar mitjançant la inferència estadística. 
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8.3 Regressió lineal simple: estimació de la recta de regressió 


A la pràctica la recta de regressió poblacional serà desconeguda i l'haurem d'estimar per 
obtenir G i B. Lestimació d'aquesta recta rep el nom de recta de regressió mostral i 


es representa mitjançant: 
Vs G BX, 


Una vegada tinguem la recta de regressió mostral, ens apareixeran els errors d'es- 
timació o residus, e, els quals es defineixen com la diferència entre el valor real Y,i el 


valor estimat Y,: 
es des De EE Ne dien 


El problema que sens planteja ara és determinar un criteri per estimar els paràme- 
tres CL i B de la recta. El criteri dels mínims quadrats ordinaris (MQO) es basa en la 
minimització de la suma dels quadrats dels residus. Altres criteris serien el que es basa 
en la minimització de la suma dels residus (aquest criteri no dóna una solució única, ja 
que els residus poden ser positius o negatius i la manera de compensat-se entre ells pot 
ser diversa) i el que es basa en la minimització de la suma dels valors absoluts dels re- 
sidus (aquest criteri té l'inconvenient, respecte al criteri de mínims quadrats ordinaris, 
que és més complicat de treballar amb valors absoluts de certes quantitats que amb els 
seus quadrats). Anem a deduir, doncs, els valors de. ú i B segons el criteri MQO. 


El que intenta el criteri MQO és minimitzar la funció segúent: 
Ds ds SES ya e-Bx) 


Això ho podem resoldre com un problema de màxims i mínims amb més d'una 


variable. El resultat que obtenim és: 


3- ax gay 
an Xi- (Si) 
El El 


Manipulant la primera expressió anterior obtenim altres expressions equivalents 


i  G-Y-BX 


per a B. En aquests casos obtenim: 


l D'en la , FX XY) 
8- El i 8- H : — 
Xi-nxX (X-X) 
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Propietats 

4, La suma dels residus és zero: Ye, — O. 

4 — La suma dels valors reals de la variable Y és igual a la suma dels valors ajustats 
de la variable Y segons la recta de regressió: YY, — Y f,. 


Exemple. Suposem que entre l'alçada (Y) i el pes (X) de les persones hi ha una 
relació lineal. A partir de les dades segients hem de trobar els paràmetres de la recta de 


regressió: 
Y 174 168 181 170 158 177 159 164 
X 77 70 79 68 56 80 56 64 
X - 68.75 Y - 168.875 

x X, LS XY 

174 77 5929 13398 

168 70 4900 11760 

181 79 6241 14299 

170 68 4624 11560 

158 56 3136 8848 

177 80 6400 14160 

159 56 3136 8904 

164 64 4096 10496 

1351 550 38462 93425 

Aleshores: 


is 


A- "xa LxDr — 893425-— 5501351 
DN 030, 838462 — 550 


S 0.837182 


QS VY- BX - 168.875 —0.837182:68.75 — 111.3187 


Per tant, la recta de regressió que obtenim és: 


ps 6 4 BX,- 111.3187 4 0.837182X, 
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8.4 Regressió lineal simple: mesures de bondat d'ajustament 


La bondat de l'ajustament d'una funció, en el nostre cas d'una recta, al núvol de punts 
es pot mesurar amb diferents coeficients: el coeficients de correlació r, el coeficient de 
determinació r" i l'error estàndard. 

Si en un model obtenim que les mesures de bondat d'ajustament lineal no són 


bones, això pot ser degut a dues causes: 


1. No existeix una relació lineal entre les dues variables, però existeix algun altre 


tipus de relació, per exemple, logarítmica, exponencial o quadràtica. 


2. No existeix cap mena de relació entre les dues variables. Les dues variables són 
totalment independents. 


Si es fa el gràfic de dispersió de les dues variables podrem tenir una idea aproxima- 


da de si el tipus de relació entre les dues variables és lineal, no lineal o inexistent. 


8.4.1 Coeficient de correlació 


El coeficient de correlació de Pearson, r, mesura la relació lineal que hi ha entre dues 


variables i es calcula mitjançant alguna de les fórmules segúents: 


nar XXX: 2 tenes 


di — z 
Ra (Es a La a a Ra a ira ua 
ny xi (32) nyri (31) Das Des 

Sex EM,-I) 
— Sl 
Se X Pe SneIy 
fí Fí 
Propietats 


a) rés un estimador del coeficient de correlació poblacional p. 
b) —lsrsl. 


c) SiO0 2r 2 1, es diu que la correlació és positiva i indica que, si incrementem el 


valor de la variable X, també s'incrementarà el valor de la variable Y. 


d) Si—1 2 r € O, es diu que la correlació és negativa i indica que, si incrementem 


el valor de la variable X, disminuirà el valor de la variable Y. 
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e) Sir - 41, vol dir que una variable és exactament combinació lineal de l'altra i 


es diu que existeix correlació total. 


f) Sir - 0, vol dir que no existeix cap mena de relació lineal entre les dues varia- 


bles estudiades i diem que les variables estan incorrelacionades. 


A les figures seguents s'han representat diversos tipus de relacions que poden 


aparèixer, 


Correlació positiva 
rs 0.95 


Correlació negativa 
rs -0.95 


Possible correlació positiva 


Possible correlació negativa 


rse0.6 rs -0.6 
e e LLEI 
e 
e 
. h da L . 
LJ 0 "0 ia 
e Pi 8 Li 
s 8) Ll e 
0 0 PL) se 
As "a : e Es 
e e e 
es "0 L) co" 
Relació no lineal No correlació 
rso rso 
e LI 
a lb . . 
o ANA de il 
set Es et . 
Le s s . 
ef é 2 eo es 
L) LES Li e 
e LI Ds 
ee e h e LI 
e RA e" e 
Ld 0 Ll 


8.4.2 Coeficient de determinació 


Definició. El coeficient de determinació és el percentatge de la variació total de la vari- 


able explicada que queda explicada per la variable explicativa. Per calcular r" només cal 


elevar el coeficient de correlació r al quadrat. 


Propietats 


a) Osrí s 1, fet que resulta evident de la primera propietat del coeficient de cor- 


relació. 
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b) Com més a prop d'1 valgui rí, més significativa és la relació lineal entre X i Y i, 


en canvi, com més a prop de O valgui r", menys significativa és la relació lineal 
entre X i Y. 


c). Si el model lineal és perfecte, el coeficient de determinació serà r7 — 1. 


d) Si el model lineal no explica res de la variació total de Y, el coeficient de deter- 


minació serà 0, 


8.4.3 Error estàndard 


Quan aproximem els valors Y, mitjançant 9, — G $ BX, ens trobem amb els errors 


d'estimació o residus e, on: 
es Y— fu i SL, 2, n 


Com més grans siguin aquests residus, pitjor serà la relació lineal que existeix en- 
tre les variables X i Y. A l'inrevés, com més petits siguin aquests residus, millor serà la 
relació lineal que existeix entre les variables X i Y. 

També s'ha de tenir en compte el nombre d'observacions que tenim. D'aquesta 


manera podem calcular l'error estàndard mitjançant l'expressió seguent: 


8.4.4 Contrast de significativitat de la regressió 


Quan tenim un coeficient de correlació donat ens podem preguntar: 


4 Aquest coeficient de correlació és significatiu2 


4 OA partir de quin valor es pot considerat que un coeficient de correlació és 

significatiu: 

Cal esmentar que, per a un nivell de significació donat, no hi ha un valor concret a 
partir del qual un coeficient de correlació es pugui considerar significatiu, ja que aquest 
valor depèn del nombre de dades de què disposem. Per determinar si el coeficient de 
correlació realment és significatiu o no, és a dir, per determinar si realment té sentit 
ajustar una recta de regressió a unes dades, cal fer un contrast d'hipòtesis. 

Els passos que s'han de seguir per fer un contrast d'hipòtesis sobre el coeficient de 


correlació poblacional p serien: 
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1, 


Determinar la hipòtesi nul-la, H,. En aquest cas, la H, és: 
Hip - 0 
Això vol dir que, sota H, el coeficient de correlació no és significatiu i no té 


sentit ajustar una recta de regressió. 


Determinar la hipòtesi alternativa, H,. En aquest cas, la H, és: 
Hip z0 


Això vol dir que, sota H,, el coeficient de correlació és significatiu i té sentit 


ajustar una recta de regressió. 


Determinar la zona de les taules estadístiques on s'accepta la H,. La taula que 
s'ha de consultar és la t de Student amb n — 2 graus de llibertat. Per a un nivell 
de significació Q, si £,, és tal que P(£ X t,,) — O / 2 (és a dir, el punt de la taula 
t de Student que deixa a la seva dreta una àrea igual a Ot / 2), la zona de la taula 


t de Student on s'accepta la H, és l'interval ( —t, , , £ 


a/27 a/2 ). 

Determinar la zona de les taules estadístiques on saccepta la H,. Serà la zona 
complementària a la trobada al pas 3), és a dir, serà ( —oo, —t, , )U (t,, , 0). 
Determinar la zona de lestadístic mostral on saccepta la H,. En aquest cas, 


l'estadístic mostral és el coeficient de correlació r i sacceptarà la H. si: 
0 


pEl— ha 2 UM) 


Co aen-2 a, an—2 
al2 a/2 


Determinar la zona de l'estadístic mostral on s'accepta la H p Serà la zona com- 


plementària a la trobada al pas 5), és a dir, sacceptarà H , si: 


Calcular l'estadístic de prova, t, de la manera segúent: 


rjn—2 


l—r 


(ts 


Segons els valors de l'estadístic de prova t i l'estadístic mostral r i les zones d'ac- 


ceptació de cada hipòtesi, decidir quina és la hipòtesi certa. 


Calcular el valor del nivell de significació crític o p-valor O. Per portar a ter- 


me aquest càlcul cal trobar la probabilitat que una distribució t de Student, 


146 


ESTADÍSTICA PRÀCTICA PAS A PAS 


amb n — 2 graus de llibertat, sigui major que l'estadístic lel i després multipli- 
car aquesta probabilitat per 2. Matemàticament, tindrem: 


d'Es 22 PES le). 


10. Segons els valors de a, i de G, decidir quina és la hipòtesi certa. 


Exemple. Seguint amb l'exemple dels pesos i les alçades, calcularem les diverses mesu- 


res de bondat d'ajustament estudiades. Recordem que la recta de regressió obtinguda és: 


Y, S 111.3187 4 0.837182X, 


El quadre segient mostra els resultats de les operacions prèvies que cal realitzar 


per calcular les diverses mesures de bondat d'ajustament: 


Y. Xx X XY. be P e E. 


t 1 1 1 Li i 


174 j 7/7 3929 13398 30276 j 175.782 j —1.782 (3.17 
168 70 4900 11760 28224 ji 169.921 ) —1.921 I 3.69 
181 79 6241 14299 32761 ( 177.456 1 3.544 3 12.56 
170 68 4624 j 11560 28900 j 168.247 ) 1.753 3.07 
158 56 3136 8848 24964 j 158.201 i —0.201/ 0.04 
177 80 6400 14160 31329 / 178.293 i —1.293 /— 1.67 
159 56 3136 8904 25281 j 158.201 i 0.799 1 0.64 
164 64 4096 10496 26896) 164.898 / —0.898 /— 0.81 


1351 1 550 j 38462 / 93425 j 228631 25.66 


Aleshores: 


isl il il — 
dn3i xi 5 (Sx) DS - - (Sny 
Po FI rel sl ay, 


8: 93425 - 550: 1351 


Be — .972957 
18: 38462 - 550) : 8: 228631- 135f 
re — 0.972957" — 0.946645 
De j 25.66 
Sur EE 2.068 
in-2 Ú 
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Finalment, per determinar si el coeficient de correlació és significatiu o no, amb OL 


— 0.05, seguirem els passos indicats per fer el contrast: 


En 
2 
A 


Hip — O. 
HL: p 2 O. 
Com que nu — 8, s ha de consultar la taula t de Student amb 6 graus de lliber- 
tat i mirar quin punt deixa a la seva dreta una àrea de O / 2 — 0.025. Aquest 


punt és el 2.45. Per tant, la zona de la taula t de Student on saccepta la H , és 
l'interval ( —2.45, 2.45 ). 


. La zona de la taula t de Student on s'accepta la H, és ( —oo, —2.45 ) U ( 2.45, 


co). 


, 4 R s 
. La H, s'acceptarà si r compleix que: 


r € (—0.7072, 0.7072) 


, 4 R 4 
. La H, sacceptarà si r compleix que: 


r E (—1, -0.7072) U (0.7072,1) 


. Lestadístic de prova, t, és: 


. Com que ri t pertanyen a la zona on saccepta la H,, saccepta que el coeficient 


de correlació és significatiu i que té sentit fer la regressió lineal. 


. Calculem el p-valor Ot: 


OS 2.P(t, ,56)- 2.242.105 - 4.84. 10-. 


10. Com que el p-valot, a — 4.84. 107, és més petit que el nivell derrot amb el 


qual volem treballar, C(. — 0.05, acceptem H a arribem a la mateixa conclusió 
que abans. 


8.5 Regressió lineal simple: punts influents i punts atípics 


Definició. Un punt o observació influent és un punt que, si es fan els càlculs de la re- 


gressió amb aquest punt o sense aquest punt, provoca resultats diferents ja sigui de 


l'estimació de la recta de regressió o del coeficient de correlació o d'ambdós. 
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Definició: un punt o observació atípic és un punt que saparta del comportament 
de la resta de punts. 

Per detectar punts influents i punts atípics hi ha diverses eines, la més senzilla de 
les quals és fer el gràfic de dispersió de les dades. Posteriorment es poden ajustar rectes 
de regressió amb i sense els punts candidats a ser influents i/o atípics per valorar-ne la 


influència i/o comportament. 


Exemple 1. En el gràfic segient es mostra un punt influent, ja que el coeficient de 
correlació sense tenir en compte el punt influent és r — —0.11 (no significatiu), i tenint 
en compte el punt influent és r — 0.85 (significatiu). 


Punt influent S 2 


Exemple 2. En el gràfic segient també es mostra un punt influent, ja que el coefici- 
ent de correlació sense tenir en compte el punt influent és r — 0.9955 (molt significatiu) 


i tenint en compte el punt influent és r — 0.02 (no significatiu). 


0 Punt influent — 2 


Exemple 3. En el gràfic segiient es mostra un punt atípic, ja que té un comporta- 
ment diferent de la resta de punts. La valoració de si és un punt influent no és tan clara, 
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ja que el coeficient de correlació sense tenir en compte el punt atípic és r — 0.95 i tenint 


en compte el punt atípic és r — 0.89. 


Punt atípic — e e " 
e 0 e 
e 92 e 
e 
e 
gel Oi P 
e 
e 
e La hi 
ue 


8.6 Regressió lineal simple: construcció d'intervals de predicció 


Una aplicació important de la regressió és la d'usar el model estimat per fer prediccions, 
és a dir, determinar el valor Y, que correspon a un valor determinat DA de la variable 


explicativa. Així, tenint en compte que: 


TD) 
Se 


p-G- 


pera X, — X, tenim que: 


fc ar BX, 


on f, serà una predicció puntual de Y,. 

És clar que un valor concret de la variable explicativa X, no sempre produirà 
un mateix valor de la variable explicada Y,. Seria més correcte pensar que els possibles 
valors de Y, estarien dintre d'un rang de nombres que posarem en forma d'interval. Cal 


distingir si aquest interval és per a valors particulars de Y, o per a l'esperança de Y,. 


8.6.1 Interval per a valors particulars de Y, 


Si volem construir un interval amb un nivell de confiança igual a 1 — O, farem servit les 
taules de la t de Student amb n — 2 graus de llibertat per tal de trobar el valor t, , que 
deixa a la seva dreta una àrea igual a CG. / 2. Amb aquestes eines puc construir l'interval 


de predicció per a valors particulars de ber amb un nivell de significació CL: 
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-X É 1 -X 2 
Po — lars, : El es 3 Hl 8 Hg 8 Pg Ftoap 9, — t Es -I 
li Ds nX" n DES ua 


8.6.2 Interval per a l'esperança de Y , 


És natural pensar que l'interval per a l'esperança d'un valor Y, serà més petit que l'inter- 
val per a valors particulars (suposant que treballem amb el mateix nivell de significació). 
Linterval el trobem fent els càlculs segúents: 


XV XY 
Po — taps, Le (XX) EES ES Le (XX) 


À Da nX" ú De nXò 


Exemple: seguint amb l'exemple dels pesos i les alçades anterior, suposem que vo- 
lem estimar l'alçada d'una persona que sabem que pesa 75 hg. La recta de regressió 
obtinguda és: 


P, S 111.3187 4 0.837182X, 
Per tant, una predicció puntual de l'alçada quan X, — 75 és: 
P9 S 111.3187 4 0.837182 . 75 — 174,1074 
Si volem els intervals de predicció per a € — 0,05, tenim les dades segients: 


nego XS TS o 90 1741074 — fs psg S 
S,- 2068 — X —68.75 — YXP,- 38462 


2.45 


Linterval de predicció per a valors particulars de YÇ és: 


174.1074 — 2.45 . 2.068 . 1.0886 s Y, 8 174.1074 1 2.45 . 2.068 . 1.0886 
168.5920 s Y, s 179.6228 


Linterval de predicció per a l'esperança de Y, és: 


174.1074 — 2.45 . 2.068 : 0.4303 s Y, 8 174.1074 4 2.45 . 2.068 : 0.4303 
171.9274 s Y, s 176.2873 
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8.7 Regressió no lineal simple 


En aquest apartat suposarem que la relació existent entre la variable explicada i la va- 
riable explicativa no és de tipus lineal. En alguns casos haurem de fer algun tipus de 
transformació per aconseguir una relació lineal, Y' — Ci 4 B'X, entre les variables trans- 
formades. Posem 3 exemples de regressió no lineal entre una variable explicada i una 
d'explicativa: 


Exemple 1. La relació que es compleix és del tipus: 
Caga X 


on a i b són els paràmetres desconeguts. 


Si prenem logaritmes, obtenim: 
Y-lhnarb.hnX 
Aquesta equació és lineal i podem treballar normalment agafant com a: 
4 Variable explicada: Y — Y 
4 Variable explicativa: X' — In X 
4 o Paràmetres: OC — InaiB'—b. 


Una vegada hem estimat els paràmetres Cl i B'per MQO podrem recuperar l'equa- 
ció inicial. 


Exemple 2. La relació que es compleix és del tipus: 
Ya. X 

on a i b són els paràmetres desconeguts. 

Si prenem logaritmes, obtenim: 


In Y-lna-rb.ln X 


Aquesta equació és lineal i podem treballar normalment agafant com a: 

4, Variable explicada: Y — In Y 

4 Variable explicativa: X" — In X 

4 o Paràmetres: OC — In ai B'-— b. 

Una vegada hem estimat els paràmetres CL'i B' per MQO podrem recuperat lequa- 
ció inicial. 


Exemple 3. La relació que es compleix és del tipus: 
Vemd 
X 


on a i b són els paràmetres desconeguts. 
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Aquesta equació és lineal i podem treballar normalment agafant com a: 

4 o Variable explicada: Y — Y 

4 Variable explicativa: X' — 1/X 

4 o Paràmetres: O — aiB'—b 

Una vegada hem estimat els paràmetres Cl i B' per MQO podrem recuperar l'equa- 


ció inicial. 


8.8 Regressió lineal múltiple 


El model estudiat en el tema de regressió lineal simple es pot generalitzar i s'hi pot in- 
cloure el cas en què tinguem una variable dependent Y i R variables independents X,, 
penes El el model de regressió lineal múltiple també s'han d'especificar una sèrie 
d'hipòtesis bàsiques sobre les components del model, que, en tot cas, són semblants a 


les especificades en el model de regressió lineal simple. 


8.8.1 Hipòtesis bàsiques del model de regressió lineal múltiple 


Respecte a l'equació. Existeix una relació lineal entre la variable dependent i les variables 


independents. Formalment escriurem: 
ED I DATA Te DA PN al 

on: 

4. Y: variable dependent 

he A variable independent, ES li RE 

4 o By: paràmetres, ES 0,1, 2, E 

4. U: terme de pertorbació 

El subíndex i indica les observacions mostrals que tenim, i el subíndex È, la varia- 
ble independent amb la qual estem treballant o el seu paràmetre corresponent. 

Respecte a les variables independents. El nombre d'observacions ha de ser més gran 
que el nombre de paràmetres. En el cas de la regressió lineal múltiple, el nombre d'ob- 
servacions ha de ser més gran que R - 1. 


Respecte als paràmetres. By By .. B, són constants al llarg del mostreig. Aquestes 


són les constants que saproximaran mitjançant la inferència estadística. 
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8.8.2 Mesures de bondat d'ajustament en regressió lineal múltiple 


Linconvenient que presenta el coeficient de determinació r" al model de regressió lineal 
múltiple és que, a mesura que augmentem el nombre de variables independents al mo- 
del, r" també augmenta. Ens podem trobar que en un model afegim variables que no 
tinguin res a veure amb la variable que es vol explicat i r" sigui més alt que el model que 
no contingui aquesta variable no significativa. Per tant, el coeficient que es proposa per 
mesurar la bondat de l'ajustament és el que sanomena coeficient de determinació cor- 
regit - , que es defineix com a: 
cé n-l 


he P fel 
Ú Sem) 


Aquest coeficient també estarà entre O i 1 i només augmenta en el cas que la vari- 
able introduida serveixi per explicar la variable dependent. 


Entre dos models diferents triarem el que tingui un 7" 


més gran. 
Per altra banda, l'error estàndard en el cas de regressió lineal múltiple es calcula 
mitjançant l'expressió seguent: 


2 
ei 


Fi 


n-(E 1) 


u 


8.9 Contrastos de significació en regressió lineal múltiple 


El model de regressió lineal ens ofereix la possibilitat de contrastar diverses hipòtesis 


sobre els coeficients. Podem fer: 


4 Contrastos coeficient a coeficient per estudiar la rellevància de cada variable 
independent per separat. Les hipòtesis que es contrasten són: 
H,: B, — 0, el coeficient B, no és significatiu, la variable X, no influeix de 
manera lineal sobre la variable Y i no té sentit que estigui en el model. 
— Hi B, £ 0, el coeficient B, és significatiu, la variable X, influeix de manera 


lineal sobre la variable Y i té sentit que estigui en el model. 


4 — En el cas de la regressió lineal múltiple, un contrast conjunt per a tots els co- 
eficients que ens servirà per estudiar la significació del model en conjunt. Les 


hipòtesis que es contrasten són: 
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— Hg: el model lineal no és significatiu: les variables X, en conjunt, no influ- 
eixen de manera lineal sobre la variable Y. 
s Hi el model lineal és significatiu: les variables X, en conjunt, influeixen de 


manera lineal sobre la variable Y. 


Per fer aquests contrastos, partirem d'un exemple concret on es fabriquen tapes 
d'alumini a partir de motlles on es posa alumini líquid a certa pressió. Es mesura la 
temperatura de l'alumini líquid, la pressió amb què aquest s'injecta al motlle i l'índex de 


porositat trobat a les tapes finals d'alumini. Les dades són: 


Temperatura (C) Pressió (Rg/cm") Índex de porositat 
640 950 6.09 
660 954 sPei: 
638 1005 6.78 
662 997 6.16 
651 976 5.93 
653 972 6.12 
647 977 5.92 


La temperatura i la pressió són variables independents i l'índex de porositat és la 


variable dependent. És a dir, hem de trobar els coeficients B de l'expressió: 


Porositat — B, t B, - Temperatura - B, - Pressió 


8.9.1 Contrastos per a coeficients particulars 


En aquest subapartat volem fer contrastos del tipus: 
H,: el coeficient P, no és significatiu. 
HI: el coeficient P, és significatiu. 
1 i 
Lestimació mínim quadràtica dels coeficients del model anterior es pot fer usant les 


tècniques de regressió lineal. El programa Excel dóna els resultats d'aquesta estimació. 


8.3953 0.2576 
B—1—0.023 Ce — 1 0.0429 
0.013 0.0221 
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Això vol dir que els valors de B,, Bi B, són 8.3953, —0.023 i 0.013 i que els 
valors de O, per fer els contrastos individuals de cada coeficient són 0.2576, 0.0429 i 
0.0221, respectivament. Si nosaltres volem agafar un valor de C. — 0.05, la conclusió que 
sobté és que: 

4 — El coeficient B, no és significatiu perquè CO, — 0.2576 5 a — 0.05. 

4, — El coeficient B, és significatiu perquè a, — 0.0429 € a — 0.05. Conclusió: la 

temperatura influeix de manera lineal en l'índex de porositat. 

4, — El coeficient B, és significatiu perquè O, — 0.0221 € a — 0.05. Conclusió: la 


pressió influeix de manera lineal en l'índex de porositat. 


8.9.2 Contrast global 


En els resultats obtinguts a l'Excel també es pot veure si el model de regressió lineal en 
conjunt és significatiu, és a dir, si les variables independents usades en el model servei- 
xen per explicar el comportament de la variable resposta. En aquest cas, el contrast que 
fem és: 

e Hg: el model lineal no és significatiu. 


e Hi el model lineal és significatiu. 


Lestadístic que s'usa per fer aquest contrast és l'estadístic F de la taula de l'anàlisi 
de la variància. En el nostre exemple, aquest estadístic té un valor d'11.6 amb un a, — 
0.0216. Per tant, podem afirmar que el model de regressió lineal és significatiu en el 
conjunt de les variables independents, ja que OC, — 0.0216 € a. — 0.05. 


8.10 Resultats amb el programa Excel 


Avui dia tenim programes informàtics que ens estalvien la feina de fer els càlculs per 
estimar els diferents paràmetres i mesures que ens apareixen quan volem fer estudis de 
regressió. 

Presentarem les pantalles que apareixen al programa Excel quan fem regressió 
lineal simple i regressió lineal múltiple. Per fer regressió a Excel es pot anar a "Herra- 
mientas" — Anàlisis de datos" — "Regresión:. 

Apareix un quadre on: 

4 Hem de triar les dades corresponents a la variable dependent Y. 

4 Hem de triar les dades corresponents a les variables independents (poden ser 

una o més d'una). 


4 Hem de marcar "Rótulos" si hem incorporat els rètols a les dades d'entrada. 
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4. Obligar que la recta ajustada passi pel punt (0,0) ("Constante igual a 0"). 


4. Determinar un nivell de confiança per quan es fan intervals de confiança dels 


paràmetres de la recta de regressió ("Nivel de confianza"). 


4 Mostrar els residus ( ja sigui numèricament o a través d'un gràfic). 


4 — Posar en un gràfic els valors pronosticats pel model i els valors reals de la vari- 


able dependent en funció de cada variable independent. 


4 — Fer un gràfic de probabilitat normal amb els valors de la variable dependent. 


8.10.1 Regressió lineal simple amb Excel 


La pantalla que apareix quan treballem amb les dades de l'exemple dels pesos i les alça- 


des és: 


Estadísticas de la regresión 


Coeficiente 
de correlación 


0.97295688 


Coeficiente de 


determinación 


0.94664509 


RN2 ajustado 0.9377526 
Error típico 2.06789119 
Observaciones 8 


Anàlisis de varianza 


Em de DE de D dera i VaonentcoE 
Regresión 1 455.21/7956 455.217956 106.454498 4.8446E-05 
Residuos 6 25.6570439 4.27617398 
Total 7 480.875 

Coeficientes Error típico Estadístico t Probabilidad 
Intercepción 111.318707 5.62612068 19.7860503 1.081E-06 
Pes 0.83718245 0.08114058 10.3176789 4.8446E-05 


Al començament apareix el valor del coeficient de correlació r (0.97295688), el valor 


del coeficient de determinació rP (0.94664509), el coeficient de determinació corregit 7 
(0.9377526) i el valor de l'error estàndard S, (2.0678119). 


A la columna "Coeficientes" trobem el resultat de G (correspon a "Intercepción') i 


elde B (correspon a "Pes"). 


157 


Josep Maria Mateo Sanz 


A la columna "Probabilidad" apareixen els p-valors per contrastar si l'ordenada 


a l'origen i el pendent són significativament diferents de zero o no, respectivament. En 


aquest cas, com que tant el p-valor per fer el contrast sobre lordenada a l'origen, que és 


1.081E-06, com el p-valor per fer el contrast sobre el pendent, que és 4.8446E-05, són 


més petits que 0.05, podem afirmar que tant lordenada a l'origen com el pendent són 


significativament diferents de zero, 


8.10.2 Regressió lineal múltiple amb Excel 


Per fer els càlculs quan treballem amb regressió lineal múltiple és quasi imprescindible 


treballar amb els ordinadors, ja que els càlculs es compliquen molt. Aquí presentem els 


resultats obtinguts quan agafem l'exemple de l'índex de porositat. 


El model que ajustem és: 


Porositat — B, t B, - Temperatura - B, - Pressió 


La pantalla que ens apareix és la segúent: 


Estadísticas de la regresión 


Earacente, 0.92355277 
de correlación 

Cosislente de: I Garogigm 
determinación 

RN2 ajustado 0.77942457 
Error típico 0.17662295 
Observaciones 7 


Anàlisis de varianza 


Grados Suma Promedio de los . 
de libertad de cuadrados cuadrados ci Eu 
Regresión 2 0.72378876 0.36189438 11.6007894 0.02162379 
Residuos 4 0.12478267 0.03119567 
Total 6 0.84857143 
Coeficientes Error típico Estadístico t Probabilidad 


Intercepción 8.39525622 6.36515374 1.31894005 0.25762905 
Temperatura —0.02301924 0.00786106 —2.92826328 1. 0.04288807 
Pressió 0.01295912 0.00356909 3.63093621 0.02214152 
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Al començament trobem el valor del coeficient de correlació r (0.92355277), el coe- 
ficient de determinació ró (0.85294971), el coeficient de determinació corregit 
(0.77942457) i lerror estàndard S, (0.17662295). 

A la columna "Coeficientes" trobem lestimació dels paràmetres: B, — 8.39525622, 
B,- —0.02301924, B,— 0.01295912. 

A la columna "Probabilidad" trobem el nivell de significació crític que resulta de 
contrastat si la variable independent corresponent és significativa, és a dir, si la variable in- 
dependent aporta alguna cosa al model lineal per explicar el comportament de la variable 
Y. Com més petit sigui el valor del nivell de significació crític, més significativa és la varia- 
ble independent. En aquest cas, com que tots els p-valors són més petits que 0.05, a banda 
del corresponent al terme independent, podem dir que les dues variables, per separat, del 
model són significatives. 

A la columna " Valor crítico de F" de l'anàlisi de la variància trobem el nivell de sig- 
nificació crític 0.02162379, que resulta de contrastar si les variables independents en con- 
junt són significatives, en aquest cas, podem afirmar que, agafant un nivell de significació 
de 0.05, les variables explicatives en conjunt són significatives per explicar de manera lineal 


el comportament de la variable Y. 


8.10.3 Regressió no lineal simple amb Excel 


La regressió no lineal simple amb Excel la farem a partir del gràfic de les dades que vo- 
lem treballar. Per tant, primer hem de fer un gràfic de dispersió. Agafant l'exemple dels 
pesos i les alçades, els passos per fer el gràfic són: 
1. Posem les dades en dues columnes de manera que les dades de la variable 
independent, Pes, ocupin una columna i les de la variable dependent, Alçada, 


ocupin la columna del costat dret. 

2. Seleccionem les dues columnes de dades. 

3. Anem a "Insertar" — "Gràfico. 

4. Triem "XY (Dispersión). Com a "Subtipo, triem el gràfic de dalt. Cliquem 
sobre "Siguiente. 

5. Si hem seleccionat bé les dades, ens surt una previsualització de com quedarà 
el gràfic i no hem de tocar cap opció. Cliquem sobre "Siguiente. 

6. En aquesta pantalla surt un quadre de diàleg amb diverses pestanyes on hi ha 
diverses opcions del gràfic, com ara posar títol al gràfic i als eixos o mostrar 
una llegenda per al gràfic. Per ara, podem deixar les coses com estan i cliquem 


sobre "Siguiente, 
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7. Per no tenir problemes amb la mida del gràfic, triem "En una hoja nueva" i 
cliquem sobre "Finalizar'. 
8. Apareix una fulla nova amb el gràfic de dispersió de les dades on tenim, a l'eix 


d'abscisses, la variable Pes i, a l'eix d'ordenades, la variable Alçada. 


A partit d'aquí podem ajustar diversos models a les dades. Nosaltres ajustarem 
els segúents: 

a) Lineal: y — ax £ b. 

b) Quadràtic: y — ax" 4 bx -c. 

c) Logarítmic: y — an x £ b. 

d) Potencial: y — ax". 

e) Exponencial: y — ge". 


Els passos que hem de seguir per fer els diversos ajustos a partir del gràfic obtin- 
gut són: 
1. Cliquem, amb el botó dret, sobre una de les dades representades. Del menú 


que apareix, triem Agregar línea de tendencia". 


2. A la pestanya " l'ipo' triem el model que volem ajustar, Si triem el model po- 
linomial, també hem d'indicar el grau del polinomi que hi volem ajustar, Per 


seguir amb el nostre exemple, triem lineal. 


3. Ala pestanya Opciones, marquem les caselles "Presentar ecuación en el gràfi- 
co" i" Presentat el valor R cuadrado en el gràfico. D'aquesta manera ens aparei- 
xerà l'equació ajustada al gràfic i el seu coeficient de determinació r". Cliquem 
sobre "Aceptar". 

4. Al gràfic ens ha d'aparèixer la funció ajustada y — 0.8372x Y 111.32 i un valor 
del coeficient de determinació de r" — 0.9466. 


Els passos anteriors els repetitíem per a les altres funcions que volem ajustar i 


podem posar els diversos resultats obtinguts en una taula com la segúent: 


Model Funció r 
Lineal ys 0.8372x 4 111,32 0.9466 
Quadràtic ( y- 0.0054x" 4 0.1067x 4 135.65 J 0.9485 
Logarítmic ys 55.9881n x — 67.484 0.9401 
Potencial VS ALS TEXT 0.9464 
Exponencial y € 119.84e020: 0.9513 
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Com que els models no tenen el mateix nombre de paràmetres per estimat, per 
decidir quin és el millor model que ajusta les dades, hem de calcular el coeficient de de- 
terminació ajustat i triar el model que tingui un valor més gran, Per fer-ho, hem de tenir 
en compte que en tots els models el valor de R -- 1 és 2, perquè hi ha dos paràmetres 
per estimar, menys en el model quadràtic, on el valor de R -- 1 és 3, perquè hi ha tres 
paràmetres per estimar. Per tant, la taula anterior es pot completar amb la columna dels 


valors calculats del coeficient de determinació ajustat: 


Model Funció El r 
Lineal ys 0.8372x 4 111.32 0.9466 / 0.9377 
Quadràtic ( y- 0.0054x" 4 0.1067x 4 135.65 /J 0.9485 j 0.9279 
Logarítmic ys 55.988 In x — 67.484 0.9401 J 0.9301 
Potencial qe 41371292 0.9464 / 0.9375 
Exponencial y E 119.84e000 0.9513 /j 0.9432 


El model que té un valor 77 més gran és el model exponencial i considerem que 
aquest és el model que millor ajusta les dades. 

Observació. Si volem ajustar un model no lineal diferent dels que apareixen en les 
opcions gràfiques d'Excel i aquest model és linealitzable mitjançant alguna transfor- 
mació de les variables originals, caldrà fer aquesta transformació i, amb les variables 
transformades, seguir els passos que s'indiquen a l'apartat "Regressió lineal simple amb 
Excel". Posteriorment, i fent les operacions adequades a partir dels resultats obtinguts 


amb Excel, podrem recuperar l'equació no lineal inicial. 
P P q 
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TAULA NORMAL ESTÀNDARD (àrees a la dreta del punt) 
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z 0 1 2 3 4 5 6 7 8 9 
0.0 1 0.5000 1 0.4980 l 0.4920 J 0.4880 l 0.4840 Í 0.4801 Í 0.4761 l 0.4721 l 0.4681 Í 0.4641 
0.1 l 0.4602 l 0.4562 Í 0.4522 Í 0.4483 Í 0.4443 Í 0.4404 Í 0.4364 Í 0.4325 Í 0.4286 Í 0.4247 
0.2 l 0.4207 l 0.4168 Í 0.4129 Í 0.4090 Í 0.4052 Í 0.4013 Í 0.3974 Í 0.3936 Í 0.3897 Í 0.3859 
0.3 0.3669 J 0.3632 J 0.3594 J 0.3557 1 0.3520 l 0.3483 
0.4 0.3300 1 0.3264 Í 0.3228 Í 0.3192 l 0.3156 l 0.3121 
0.2776 

0.2451 

0.2148 

0.1867 

0.1611 

0.1379 

1.1 0.1271 1 0.1251 Í 0.1230 J 0.1210 l 0.1190 J 0.1170 
1.2 0.1075 l 0.1056 Í 0.1038 Í 0.1020 J 0.1003 l 0.0985 
1.3 0.0823 
1.4 0.0681 
15 0.0559 
1.6 0.0455 
17 0.0367 
1.8 0.0294 
19 0.0262 J 0.0256 Í 0.0250 J 0.0244 1 0.0239 l 0.0233 
2.0 0.0207 l 0.0202 Í 0.0197 Í 0.0192 Í 0.0188 l 0.0183 
0.0143 

0.0110 

0.0084 

0.0064 

0.0048 

0.0036 

27 0.0031 J 0.0030 Í 0.0029 J 0.0028 1 0.0027 J 0.0026 
2.8 0.0023 Tl 0.0022 Í 0.0021 Í 0.0021 Í 0.0020 l 0.0019 
0.0014 

0.0010 

0.0007 

0.0005 

0.0003 

0.0002 

3.5 0.0002 J 0.0002 Í 0.0002 J 0.0002 Í 0.0002 J 0.0002 
3.6 0.0001 T 0.0001 Í 0.0001 Í 0.0001 $ 0.0001 T 0.0001 
3.7 1 0.0001 1 0.0001 T 0.0001 Í 0.0001 T 0.0001 Í 0.0001 Í 0.0001 Í 0.0001 Í 0.0001 Í 0.0001 
3.8 1 0.0001 1 0.0001 T 0.0001 $ 0.0001 Tl 0.0001 Í 0.0001 Í 0.0001 Í 0.0001 J 0.0001 Í 0.0001 
3.9 1 0.0000 1 0.0000 Í 0.0000 Í 0.0000 Í 0.0000 Í 0.0000 7 0.0000 Í 0.0000 Í 0.0000 Í 0.0000 

— L 1 sn 
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TAULA RHI QUADRAT 


àrees a la dreta del punt 
0.995 J 0.99 /J 0.975 J 0.95 0.9 0.75 0.5 0.25 0.1 0.05 /J 0.025 I 0.01 J 0.005 


0.0 0.0 0.0 0.0 0.0 0.1 0.5 1.3 2.1 3.8 5.0 6.6 19 


0.0 0.0 0.1 0.1 0.2 0.6 1.4 2.8 4.6 6.0 74 9.2 10.6 


0.1 0.1 0.2 0.4 0.6 1.2 2.4 4.1 6.3 18 9.3 11.3 12.8 


1 
2 

3 

4 02 07 11 19 1 34 J 54 l 78 13.3 I 14.9 
5) 04 J 06 J 08 J 11 16 1 27 J 44 l 66 l 92 154 1 16.7 
6) 07 J 09 J 12 J 16 J 22 ) 35 1 53 l 78 l 106 16.8 I 18.5 
1 28 1 43 l 63 J 90 1 120 18.5 l 20.3 
8 35 1 5.1 78 l'108/l 184 20.1 Í 220 
9 


42 159 1 83 J 114 I 147 21.7 Í 236 
1 49 1 6.7 l 93 l 125 1 160 23.2 l 252 
1 17.3 24.7 Í 268 
1 26.2 Í 283 
1 27.7 Í 298 
1 29.1 l 313 
1 30.6 l 328 
1 32.0 1 34.3 
1 33.4 I 35.7 
1 34.8 l 372 
1 36.2 l 38.6 
20 37.6 1 40.0 
21 38.9 1 41.4 
22 40.3 Í 428 
23 41.6 Í 442 
24 43.0 Í 45.6 
25 44.3 Í 469 
26 45.6 Í 48.3 
27 47.0 Í 49.6 


28) 125 16.9 Í 18.9 Í 227 Í 273 Í 326 Í 379 48.3 1 51.0 
29) 13.1 17.7 Í 19.8 Í 23.6 Í 28.3 Í 337 Í 394 496 Í 523 
30 I. 13.8 18.5 Í 20.6 Í 245 Í 29.3 Í 348 Í 40.3 50.9 I 53.7 
40) 20.7 26.5 1 29.1 l 33.7 l 39.3 l 456 l 518 63.7 l 66.8 
50 28.0 34.8 1 37.7 l 42.9 l 49.3 l 56.3 l 632 76.2 l 79.5 
60 355 43.2 l 465 l 523 Í 593 l 670 Í 744 88.4 1 92.0 
70 43.3 51.7 1 55.3 l 61.7 l 69.3 l 776 l 855 100.4 Í 104.2 
80 (512 60.4 1 64.3 l 71.1 l 79.3 l 88.1 l 96.6 1 101.9 I 106.6 l 112.3 I 116.3 


90 J. 59.2 61.8 J 65.6 69.1 13.3 J. 80.6 89.3 98.6 J 107.6 ( 113.1 J 118.1 J 124.1 l 128.3 


100J 67.3 70.1 14.2 109 82.4 90.1 99.3 /J 109.1 l 118.5 ( 124.3 J 129.6 J 135.8 J 140.2 
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0.445 Í 04 l 03 l 025 Il 02 0.1 J 0.05 J 0.025 Í 0.01 J 0.005 
1 0.16 Í 0.32 l 073 l 1.00 l 138 l 308 Í 631 ) 1271 ) 3182 l 63.66 
2 0.14 Í 0.29 J 0.462 ) 0.82 1 1.06 l 1.89 J 292 J 430 J 696 J 9.92 
3 0.14 J 0.28 J 0.58 J 0.76 2.35 348 j 454 J 584 
4 0.13 J 0.27 J 0.57 J 0.74 213 l 278 J 375 j 4.60 
5 0.13 Í 0.27 ) 056 J 0.73 202 Í 257 Í 336 Í 4.03 
6 0.13 Í 0.26 ) 055 J 072 1.94 I 245 l 3.44 l 3.71 
7 0.13 Í 0.26 J 0.55 l 0.71 189 l 2.36 J 3.00 J 3.50 
8 0.13 Í 0.26 ) 0.55 l 0.71 186 l' 231 l 290 J 3.36 
9 0.13 Í 0.26 J 054 J 0.70 183 l 2.26 l 282 l 3.25 
10 J 0.13 J 0.26 l 0.54 J 0.70 181 l 228) 276 ( 817 
11 0.13 J. 0.26 J 0.54 J 0.70 FD ESS 
12 0.13 J 0.26 J 0.54 J 0.70 178 l 248 l 268 l 3.05 
13 J 0.13 J 0.26 l 0.54 l 0.69 177 l 246 l 265 l 3.01 
14 l 0.13 l 0.26 l 0.54 l 0.69 176 l 214 l 262 l 298 
15 J 0.13 Í 0.26 l 0.54 l 0.69 175 l 213 l 260 l 295 
16 J 0.13 Í 0.26 l 0.54 l 0.69 175 l 242 l 258 l 292 

gi TJ 043 j 026 j 053 j 089 174 l 211 l 257 l 290 
18 J 0.13 J 0.26 l 0.53 l 0.69 178 l 240 (255.1 288 
19 J 0.13 J 0.26 J 0.53 J 0.69 1.73 1 2.09 l 254 l 286 

20 0.13 J 0.26 J 0.53 J 0.69 172 1 2.09 l 253 l 285 
21 0.13 Í 0.26 J 0.53 l 0.69 172 l 208 l 252 l 283 
22 l 0.413 l 026 Í 053 Í 0869 172 l 207 l 251 l 282 
23 l 0.13 l 026 Í 053 Í 0869 171 l 207 l 250 l 281 
24 l 0.13 l 026 Í 053 Í 068 171 l 206 l 249 l 280 
25 l 0.13 ) 026 ) 053 Í 068 171 l 206 l 249 l 2.79 
26 l 0.13 ) 026 J 053 j 068 171 l 206 l 248 l 2.78 
27 l 0.18 1 0.26 J 0.53 J 0.68 1.70 l 2.05 l 247 l 277 
28 0.13 J 0.26 J 0.53 J 0.68 1.70 l 205 l 247 l 276 
29 $ 0.13 ) 026 Í 053 Í 068 170 l 205 l 246 l 276 
30 l 0.13 l 026 Í 053 Í 068 170 l 204 l 246 l 275 
40 $ 0.183 Í 026 J 0.53 l 0.68 168 l 202 l 242 l 270 
60 j 0.13 ) 025 Í 053 Í 068 167 l 200 l 239 l 266 
120 J 0.13 l 0.25 l 0.53 J 0.68 166 l 198 l 236 l 2.62 
oo 0.13 Í 0.25 J 0.52 l 0.67 164 1 1.96 1 2.33 l 2.58 
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TAULA F (àrea de 0.025 a la dreta) 


g.. 1 


9 ) 10 


12 


15 


20 


24 


30 


40 


60 


120 


— 


963 / 969 


977 


985 


993 


997 


1001 


1006 


1010 


1014 


39.4 ( 39.4 


39.4 


39.4 


39.4 


39.5 


39.5 


39.5 


39.5 


39.5 


14.5 14.4 


14.3 


14.3 


14.2 


14.1 


14.1 


14.0 


14.0 


13.9 


8.90 (8.84 


8.75 


8.66 


8.56 


8.51 


8.46 


8.41 


8.36 


8.31 


6.68 (6.62 


6.52 


6.43 


6.33 


6.28 


6.23 


6.18 


6.12 


6.07 


5.52 5.46 


5.837 


5.27 


5.17 


5.12 


5.07 


5.01 


4.96 


4.90 


4.82 4.76 


4.67 


4.57 


4.47 


4.41 


4.36 


4.31 


4.25 


4.20 


4.36 ( 4.80 


4.20 


4.10 


4.00 


3.95 


3.89 


3.84 


3.78 


3.73 
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4.03 ( 3.96 


3.87 


3.77 


3.67 


3.61 


3.56 


3.51 


3.45 


3.39 


3.78 3.72 


3.62 


3.52 


3.42 


3.37 


3.31 


3.26 


3.20 


3.14 


—/j-m 
el 


3.59 3.53 


3.43 


3.33 


3.23 


3.17 


3.12 


3.06 


3.00 


2.94 


— 
he) 


3.44 (3.37 


3.28 


3.18 


3.07 


3.02 


2.96 


2.91 


2.85 


2.19 


— 
co 


3.31 3.25 


3.15 


3.05 


2.95 


2.89 


2.84 


2.18 


2.12 


2.66 


- 
ra 


3.21 3.15 


3.05 


2.95 


2.84 


2.79 


2.13 


2.67 


2.61 


2.55 


— 
6) 


3.12 3.06 


2.96 


2.86 


2.16 


2.70 


2.64 


2.59 


2.52 


2.46 


— 
o 


3.05 / 2.99 


2.89 


2.79 


2.68 


2.63 


2.57 


2.51 


2.45 


2.38 


g.I. 


— 
a) 


2.98 (2.92 


2.82 


2.12 


2.62 


2.56 


2.50 


2.44 


2.38 


2.32 


— 
co 


2.93 (2.87 


2.11 


2.67 


2.56 


2.50 


2.44 


2.38 


2.32 


2.26 


— 
le) 


2.88 ( 2.82 


2.12 


2.62 


2.51 


2.45 


2.39 


2.33 


2.21 


2.20 


De) 
ls) 


2.84 12.77 


2.68 


2.57 


2.46 


2.41 


2.35 


2.29 


2.22 


2.16 


he) 
peró 


2.80 (2.73 


2.64 


2.53 


2.42 


2.37 


2.31 


2.25 


2.18 


211 


he) 
he) 


2.16 12.70 


2.60 


2.50 


2.39 


2.33 


2.21 


2.21 


2.14 


2.08 


De) 
(es) 


2.131 2.67 


2.57 


2.47 


2.36 


2.30 


2.24 


2.18 


2.11 


2.04 


MN 
s 


2.70 2.64 


2.54 


2.44 


2.33 


2.21 


2.01 


2.15 


2.08 


2.01 


DS) 
(61) 


2.68 (2.61 


2.51 


2.41 


2.30 


2.24 


2.18 


2.12 


2.05 


1.98 


De) 
ley) 


2.65 2.59 


2.49 


2.39 


2.28 


2.22 


2.16 


2.09 


2.03 


1.95 


he) 
1 


2.63 2.57 


2.47 


2.36 


2.25 


2.19 


2.13 


2.07 


2.00 


1.93 


De) 
co 


2.61 2.55 


2.45 


2.34 


2.23 


2.17 


2.11 


2.05 


1.98 


1.91 


DS 
ie) 


2.59 (2.53 


2.43 


2.32 


2.21 


2.15 


2.09 


2.03 


1.96 


1.89 


30 


2.57 12.51 


2.41 


2.31 


2.20 


2.14 


2.07 


2.01 


1.94 


1.87 


2.45 (2.39 


2.29 


2.18 


2.07 


2.01 


1.94 


1.88 


1.80 


1.72 


2.33 2.27 


2.17 


2.06 


1.94 


1.88 


1.82 


1.74 


1.67 


1.58 


2.22 2.16 


2.05 


1.94 


1.82 


1.76 


1.69 


1.61 


1.53 


1.43 


2.13 2.06 


1.96 


1.85 


1.72 


1.65 


1.58 


1.50 


1.41 


1.29 


09175 


0025 
La 


168 


ESTADÍSTICA PRÀCTICA PAS A PAS 


TAULA F (àrea de 0.01 a la dreta) 


g.. 1 

1 2 3 4 5 6 7 8 9 10 1 12 1 15 J 20 J 24) 30 J 40 J 60 j 120/j vo 

1 140521499915404 ESE 5859/592815981 ESE 6107/6157/6209/6234 6260 EC 6340/6363 
2 198.5/99.0/99.2/ 99.3/ 99.3 99.4 1 99.4) 99.4 99.5 99.5 / 99.5 ) 99.5 / 99.5 
3 134.1/30.8/ 29.5 / 28.7) 28.2 21.5127.3127.2 26.51 26.41 26.3) 26.2) 26.1 
4 121.2118.0/16.7/ 16.0) 15.5 14.81 14.7 ( 14.5 13.8) 13.71 13.71 13.6) 13.5 
5 116.3/13.3/ 12.1 10.31 10.21 10.1 9.38 1 9.29/ 9.20 1 9.11 I 9.03 
7 112.219.55/ 8.45 5.821 5.74/5.66 
8 111.3/8.65/ 7.59 5.03 J 4.95 J 4.87 
9 /110.6/8.02/6.99 4.48) 4.40) 4.32 
10 /j 10.01 7.56 6.55 : 4.08 J 4.00) 3.92 
12 1 9.33 1 6.93 ) 5.95 15.41 1 5.06) 4.821 4.64) 4.50 1 4.39 ( 4.30 ) 4.16 j 4.01 / 3.86 j 3.78 j 3.70 1 3.62) 3.54) 3.45 J 3.37 
13 1 9.07 16.70) 5.74 4.86 J 4.62) 4.44) 4.30 3.34) 3.251 3.18 
14 1 8.86/16.51/ 5.56 4.141 4.03) 3.94 3.18/J 3.09 J 3.02 
15 / 8.68 J 6.36 j 5.42 4.00 / 3.89 J 3.80 3.05 J 2.96 J 2.88 
16 /8.53/6.23/ 5.29 3.891 3.78 J 3.69 2.931 2.841 2.76 
g.. 17 18.4016.11/ 5.19 3.791 3.68 / 3.59 2.831 2.7/5/ 2.66 
19 /8.18/ 5.93) 5.01 3.63 / 3.52) 3.43 2.671 2.581 2.50 
20 1 8.10/5.85/ 4.94 3.56 / 3.46 / 3.37 2.61/ 2.52) 2.43 
21 j8.02/5.78/ 4.87 3.51 1 3.40 3.31 2.55) 2.46) 2.837 
22 1 7.9515.72/ 4.82 3.45 / 3.35 J 3.26 I 2.50) 2.40) 2.32 
24 1 7.8215.61/4.72/ 4.221 3.90) 3.67) 3.50) 3.36) 3.26 / 3.17 1 3.031 2.89) 2.741 2.66) 2.58 / 2.49 J 2.40) 2.31 j 2.22 
26 1 7.(215.53/ 4.64 3.291 3.18 / 3.09 2.331 2.231 2.14 
27 17.68) 5.49) 4.60 3.26 1 3.15 / 3.06 2.291 2.2012.11 
28 1 7.641 5.45/ 4.57 3.231 3.12/ 3.03 2.261 2.17) 2.08 
29 1 7.60) 5.42) 4.54 3.20 / 3.09 J 3.00 2.411 2.331 2.231 2.141 2.05 
40 ) 7.31/15.18/ 4.31 2.11/12.021 1.921 1.82 
60 / 7.08) 4.98) 4.13 1.94 1.84) 1.73) 1.62 
120) 6.85 / 4.79 j 3.95 1.761 1.661 1.53/ 1.40 
co 16.66/ 4.63/ 3.80 1.501 1.351 1.16 
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TAULA DE ROLMOGOROV- TAULA DE ROLMOGOROV- 

SMIRNOV SMIRNOV-LILLIEFORS 

n a-0.1 ) a-0.05 a:-0.01 n a-0.1 j a-0.05 a -0.01 
1 0.95 0.975 0.995 1 0.445 0.486 0.562 
2 0.776 0.842 0.929 2 0.408 0.446 0.516 
3 0.636 0.708 0.829 3 0.37 0.404 0.468 
4 0.565 0.624 0.734 4 0.339 0.371 0.429 
5 0.509 0.563 0.669 5 0.314 0.343 0.397 
6 0.468 0.519 0.617 6 0.294 0.321 0.371 
7 0.436 0.483 0.576 7 0.277 0.303 0.35 
8 0.41 0.454 0.542 8 0.263 0.287 0.332 
9 0.387 0.43 0.513 9 0.25 0.273 0.316 
10 0.369 0.409 0.489 10 0.239 0.262 0.303 
11 0.352 0.0391 0.468 11 0.23 0.251 0.29 
12 0.338 0.375 0.449 12 0.221 0.242 0.28 
13 0.325 0.361 0.432 13 0.214 0.234 0.27 
14 0.314 0.349 0.418 14 0.207 0.226 0.261 
15 0.304 0.338 0.404 15 0.201 0.219 0.254 
16 0.295 0.327 0.392 16 0.195 0.213 0.245 
17 0.286 0.318 0.381 17 0.19 0.207 0.24 
18 0.279 0.309 0.371 18 0.185 0.202 0.233 
19 0.271 0.301 0.361 19 0.18 0.197 0.228 
20 0.265 0.294 0.352 20 0.176 0.192 0.222 
21 0.259 0.287 0.344 21 0.172 0.188 0.218 
22 0.253 0.281 0.337 22 0.168 0.184 0.213 
23 0.247 0.275 0.33 23 0.165 0.18 0.209 
24 0.242 0.269 0.323 24 0.162 0.177 0.204 
25 0.238 0.264 0.317 25 0.159 0.173 0.201 
26 0.233 0.259 0.311 26 0.156 0.17 0.197 
27 0.229 0.254 0.305 27 0.153 0.167 0.193 
28 0.225 0.25 0.3 28 0.15 0.164 0.19 
29 0.221 0.246 0.295 29 0.148 0.162 0.187 
30 0.218 0.242 0.29 30 0.146 0.159 0.184 
31 0.214 0.238 0.285 31 0.143 0.157 0.181 
32 0.211 0.234 0.281 32 0.141 0.154 0.179 
33 0.208 0.231 0.277 33 0.139 0.152 0.176 
34 0.205 0.227 0.273 34 0.137 0.15 0.173 
35 0.202 0.224 0.269 35 0.135 0.148 0.171 
36 0.199 0.221 0.265 36 0.134 0.146 0.169 
37 0.196 0.218 0.262 37 0.132 0.144 0.167 
38 0.194 0.215 0.258 38 0.13 0.142 0.164 
39 0.191 0.213 0.255 39 0.129 0.14 0.162 
40 0.189 0.21 0.252 40 0.127 0.139 0.16 
1.224 1.358 1.628 0.805 0.886 1.031 

40 — — — 40 — — L- 
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L'objectiu principal d'aquest material és proporcionar als 
estudiants universitaris una eina que permeti consultar cla- 
rament i ràpidament com es pot aplicar de manera pràctica 
la teoria relacionada amb qualsevol dels continguts que for- 
men part d'un curs bàsic d'estadística de nivell universitari. 
Per tal d'afavorir l'aprenentatge, s'explica pas a pas, i usant 
exemples, quan i com es poden aplicar aquestes tècniques 
estadístiques. També es comenta quines són les funcions i 
les eines estadístiques d'Excel. 


